辞書がなくても翻訳できる、教師なし機械学習の新手法
人工知能(AI)の言葉をあなたは話せますか? サイエンス誌によると、 新たに発表された2件の研究論文で、辞書を使わずに言語を翻訳できる教師なし機械学習の方法の詳細が紹介された。これらの方法はまた、対訳テキストや、翻訳先言語にすでに訳されたテキストがなくてもうまく機能する。
2つの論文はそれぞれ別個に完成したものだが、似たような手法を使っている。どちらも、人間が正誤を判断することなく、2カ国語辞書を構築することに端を発し、「木」と「葉」、あるいは「靴」と「靴下」など特定の単語と単語の関係が、言語を問わずに似ていることを利用する。これにより、人工知能(AI)は言語内のかたまりと関係に着目し、他言語ではどうなっているかを学習する。
文の翻訳では、バックトランスレーション(逆翻訳)とノイズ除去という2つの補助方式を使用して、新しい辞書をテストする。バックトランスレーションは、1つの文を新しい言語に翻訳し、次にその訳文を元の言語に再翻訳する手法だ。再翻訳した文が元の文と一致しなければ、AIが若干の補正を加えてもう一度、翻訳とバックトランスレーションを試み、再翻訳した文が元の文に近づくようにしていく。ノイズ除去も仕組みは似ているが、ただ文章をコピーするのではなく、AIによる学習を常に有益なものにするため、あちこちの単語を移動したり取り出したりする。
言語翻訳の改善は、グーグルやフェイスブックなど、多くの企業が目標としており、近年は若干の成果が見られる。リアルタイム翻訳を目指すグーグルの無線イヤホン「ピクセル・バッズ」などの試みもあるが、いずれもまだ進化の途上にある。