KADOKAWA Technology Review
×
自然言語処理のトップ学会で発表されたデータ収集方法4つ
Joe Raedle/Getty Images
ニュース 無料会員限定
The quirky ways AI researchers gather data to feed their algorithms

自然言語処理のトップ学会で発表されたデータ収集方法4つ

機械学習に必要な訓練データをいかにして収集するか。自然言語処理の年次学会である「EMNLP」で発表された、独創的なデータ収集方法を4つ紹介しよう。 by Karen Hao2018.11.15

人工知能(AI)の発展における燃料となる石油とも言えるものが「データ」だ。ユーチューブのキャプションやスポティファイ(Spotify)のレコメンド、それにインターネット上でひたすら追っかけてくる不気味な宣伝広告といった、ごく当たり前のように享受しているテクノロジーの進歩の多くも、大量のデータに支えられている。

だが、有益なデータの収集には多くの場合、独創的な方法が求められる。コンピューターに人間の言語の解析方法を教えることに主眼を置くAIの一分野、自然言語処理(NLP)を例にとってみよう。自然言語処理の年次学会である「EMNLP(Empirical Methods in Natural Language Processing)」では、独創的なデータの収集の方法について、幅広い研究成果が発表された。特に目を引いた4つのプロジェクトの概要を以下に紹介する。

スパングリッシュ(SPANGLISH)

多言語のNLPに関する2018年の論文の中に、マイクロソフトが発表した「コード混合言語(code-mixing language)」に焦点を当てた論文がある。コード混合言語とは2カ国語を自由自在に使い分ける書き言葉、または話し言葉のことだ。世界人口の半分以上が複数言語を使っていることを考えれば、あまり研究の進んでいないこの分野の重要性は大きい。

研究チームはスパングリッシュ(Spanglish=スペイン語と英語の混合言語)から取り掛かったが、機械を訓練するのに必要なスパングリッシュの文章量が不足していた。複数言語での会話におけるコード混合がごく一般的であるのに対して、コード混合で記述された文はごく稀にしか見つからない。この問題を解決するため、研究チームは、普通の英語をマイクロソフトのビング(Bing)の翻訳機能に書き込み、スペイン語に翻訳された文からいくつかのフレーズを取り出して元の英語に織り込むプログラムを開発。入れ替えられた単語やフレーズが元の英語とまったく同じ意味を持っていることを確認した。実際 …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
  2. This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る