KADOKAWA Technology Review
×
始めるならこの春から!年間サブスク20%オフのお得な【春割】実施中
自然言語処理のトップ学会で発表されたデータ収集方法4つ
Joe Raedle/Getty Images
ニュース 無料会員限定
The quirky ways AI researchers gather data to feed their algorithms

自然言語処理のトップ学会で発表されたデータ収集方法4つ

機械学習に必要な訓練データをいかにして収集するか。自然言語処理の年次学会である「EMNLP」で発表された、独創的なデータ収集方法を4つ紹介しよう。 by Karen Hao2018.11.15

人工知能(AI)の発展における燃料となる石油とも言えるものが「データ」だ。ユーチューブのキャプションやスポティファイ(Spotify)のレコメンド、それにインターネット上でひたすら追っかけてくる不気味な宣伝広告といった、ごく当たり前のように享受しているテクノロジーの進歩の多くも、大量のデータに支えられている。

だが、有益なデータの収集には多くの場合、独創的な方法が求められる。コンピューターに人間の言語の解析方法を教えることに主眼を置くAIの一分野、自然言語処理(NLP)を例にとってみよう。自然言語処理の年次学会である「EMNLP(Empirical Methods in Natural Language Processing)」では、独創的なデータの収集の方法について、幅広い研究成果が発表された。特に目を引いた4つのプロジェクトの概要を以下に紹介する。

スパングリッシュ(SPANGLISH)

多言語のNLPに関する2018年の論文の中に、マイクロソフトが発表した「コード混合言語(code-mixing language)」に焦点を当てた論文がある。コード混合言語とは2カ国語を自由自在に使い分ける書き言葉、または話し言葉のことだ。世界人口の半分以上が複数言語を使っていることを考えれば、あまり研究の進んでいないこの分野の重要性は大きい。

研究チームはスパングリッシュ(Spanglish=スペイン語と英語の混合言語)から取り掛かったが、機械を訓練するのに必要なスパングリッシュの文章量が不足していた。複数言語での会話におけるコード混合がごく一般的であるのに対して、コード混合で記述された文はごく稀にしか見つからない。この問題を解決するため、研究チームは、普通の英語をマイクロソフトのビング(Bing)の翻訳機能に書き込み、スペイン語に翻訳された文からいくつかのフレーズを取り出して元の英語に織り込むプログラムを開発。入れ替えられた単語やフレーズが元の英語とまったく同じ意味を持っていることを確認した。実際 …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. Promotion MITTR Emerging Technology Nite #32 Plus 中国AIをテーマに、MITTR「生成AI革命4」開催のご案内
  2. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
  3. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
  4. Tariffs are bad news for batteries トランプ関税で米電池産業に大打撃、主要部品の大半は中国製
▼Promotion
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る