機械翻訳の進化を加速する計算言語学の新しいアプローチ
世界中の7000の言語のうち、Google翻訳が対応している言語は100にもみたない。新しい機械翻訳の手法はこうした状況を変えられるかもしれない。 by Emerging Technology from the arXiv2017.09.05
有力な説によると、人類は現在およそ6900種類の言語を使用している。ところが世界人口の半分以上は、中国語、英語、ヒンディー語、スペイン語、ロシア語といったごく一部の言語を使用しているに過ぎない。実に95%の人が、わずか100種類の言語でコミュニケーションをとっているのだ。
中国語、英語、ヒンディー語、スペイン語、ロシア語以外の言語を使うのは非常に稀なのだ。実際、言語学者の推定によると、世界の言語の約3分の1は話者が1000人に満たず、今後100年程度で絶滅してしまう危機に瀕している。ある言語が絶滅すれば、物語や名言、ジョークから、薬草療法、さらには独自の感情表現といった、その言語によって表現されている文化も消え去ってしまうだろう。
文化の消滅を防ぐために機械学習を使う、という考えはすぐ思い浮かぶ。しかし、ここで問題になるのが、機械翻訳に頑張ってもらうためには、膨大な注釈付きのデータセットが必要だということだ。データセットは、人力で翻訳された膨大な書籍、記事、Webサイトで構成されている。データセットは機械学習アルゴリズムではロゼッタストーンのように作用し、データセットが充実すればするだけ学習成績も向上するのだ。
しかし、充実したデータセットがある言語は少ない。 そのため、機械翻訳は、話者の多いごくわずかな言語でしか使用できない。たとえば、Google翻訳で使用できるのはたった90言語だ。
だから、希少言語を自動で分析し、よりよく理解するのは、言語学者にとって重要な課題なのだ。
このほど、ドイツ・ルートヴィヒ・マクシミリアン大学ミュンヘンのエザネディン・アスガリ研究員とハインリック・シュッツェ教授が、希少言語の自動分析を実現したと発表した。2人の新しいアプローチは、ほぼすべての言語において重要な要素を解き明かし、機械翻訳を進化させる手段として利用できる。
アスガリとシュッツェの手法は、少なくとも2000種類の言語に翻訳された1つのテキストをベースにしている。つまり、聖書である。言語学者は古くから、聖書の重要性を認識してきた。
結果的に、アスガリとシュッツェは「比較聖書全集(Parallel Bible Corpus)」と呼ぶデータベースを作成した。データベースは1169言語に翻訳された新約聖書で構成されているが、グーグルなどが機械学習に使うには不十分な量だ。そこで2人は、さまざまな言語における時制の表し方に注目した、別のアプローチを考案した。
ほとんどの言語において、時制を示すためには特別な単語あるいは …
- 人気の記事ランキング
-
- AI reasoning models can cheat to win chess games 最新AIモデル、勝つためなら手段選ばず チェス対局で明らかに
- Promotion Innovators Under 35 Japan × CROSS U 【3/14開催迫る!】研究者のキャリアを考える無料イベント
- OpenAI just released GPT-4.5 and says it is its biggest and best chat model yet 限界説に挑むオープンAI、最後の非推論モデル「GPT-4.5」
- Your boss is watching 機械化する人間たち—— 「見えない目」が変える 職場の風景
- Your boss is watching 機械化する人間たち—— 「見えない目」が変える 職場の風景