人工知能(AI)の発展における燃料となる石油とも言えるものが「データ」だ。ユーチューブのキャプションやスポティファイ(Spotify)のレコメンド、それにインターネット上でひたすら追っかけてくる不気味な宣伝広告といった、ごく当たり前のように享受しているテクノロジーの進歩の多くも、大量のデータに支えられている。
だが、有益なデータの収集には多くの場合、独創的な方法が求められる。コンピューターに人間の言語の解析方法を教えることに主眼を置くAIの一分野、自然言語処理(NLP)を例にとってみよう。自然言語処理の年次学会である「EMNLP(Empirical Methods in Natural Language Processing)」では、独創的なデータの収集の方法について、幅広い研究成果が発表された。特に目を引いた4つのプロジェクトの概要を以下に紹介する。
#
スパングリッシュ(SPANGLISH)
多言語のNLPに関する2018年の論文の中に、マイクロソフトが発表した「コード混合言語(code-mixing language)」に焦点を当てた論文がある。コード混合言語とは2カ国語を自由自在に使い分ける書き言葉、または話し言葉のことだ。世界人口の半分以上が複数言語を使っていることを考えれば、あまり研究の進んでいないこの分野の重要性は大きい。
研究チームはスパングリッシュ(Spanglish=スペイン語と英語の混合言語)から取り掛かったが、機械を訓練するのに必要なスパングリッシュの文章量が不足していた。複数言語での会話におけるコード混合がごく一般的であるのに対して、コード混合で記述された文はごく稀にしか見つからない。この問題を解決するため、研究チームは、普通の英語をマイクロソフトのビング(Bing)の翻訳機能に書き込み、スペイン語に翻訳された文からいくつかのフレーズを取り出して元の英語に織り込むプログラムを開発。入れ替えられた単語やフレーズが元の英語とまったく同じ意味を持っていることを確認した。実際 …