AIはまだ自然言語を理解できていない、AI2が新評価テストを提案
深層学習に基づく自然言語処理技術は最近、長足の進歩を遂げているが、人工知能(AI)は読んだ文をどれだけ本当に理解しているのだろうか?アレン人工知能研究所(AI2)の研究チームは、機械が文の意味をどれだけ理解しているのかを評価するための新たな大規模データセットを作成し、最先端の言語モデルでテストして人間の結果と比較した。 by Karen Hao2020.02.06
ごく最近まで、コンピューターが実際に意味をなす文を作ることは望めなかった。だが自然言語処理(NLP)の分野の目覚ましい発展により、現在ではボタン1つで説得力のある文章を機械が生成できるようになった。
この進歩を支えているのが、膨大な量の文章から単語の使い方と議論の構造の統計的なパターンを見つけ出す深層学習の手法である。だが、アレン人工知能研究所(AI2)が発表した新しい論文は、NLPにおいて依然として欠けている点に注意するよう呼びかけている。機械は、自分が書いている、あるいは読んでいることを本当に理解しているわけではないのだ。
自然言語の理解は、汎用人工知能(AGI)を作る壮大な挑戦における根本的課題だが、学問の世界だけでなく、消費者にも関わりのある問題となる。たとえば、最先端の自然言語モデルに基づいて作られたチャットボットと音声アシスタントは、多くの金融機関や医療機関、政府機関でインターフェイスとして採用されている。言語を本当に理解していないので、このようなシステムは誤りを起こしがちで、重要なサービスになかなかたどり着けない。
アレン人工知能研究所の研究者たちは「ウィノグラード・スキーマ・チャレンジ」(フェアチャイルド人工知能研究所のヘクター・レベスク研究員が提案した改良版チューリングテストで、スタンフォード大学のコンピューター科学者のテリー・ウィノグラード教授にちなむ)の成果を利用してこうした課題を解決しようとしている。ウィノグラード・スキーマ・チャレンジは、NLPシステムの常識的推論を評価するために2011年に開発されたテストだ。ウィノグラードでは、対になった文から成る273個の質問セットを用いられる。対になった2つの文は、1つの単語以外はまったく同じである。その単語はトリガーと呼ばれ、以下の例に見られるように各文の代名詞の意味を入れ替える。
正解を出すためには、NLPシステムは代名詞が指すものが2つの選択肢のどちらなのかを判断しなくてはならない。この場合は、1番目の文 …
- 人気の記事ランキング
-
- Why handing over total control to AI agents would be a huge mistake 「AIがやりました」 便利すぎるエージェント丸投げが危うい理由
- An ancient man’s remains were hacked apart and kept in a garage 切り刻まれた古代人、破壊的発掘から保存重視へと変わる考古学
- This startup just hit a big milestone for green steel production グリーン鉄鋼、商業化へ前進 ボストン・メタルが1トンの製造に成功
- OpenAI has released its first research into how using ChatGPT affects people’s emotional wellbeing チャットGPTとの対話で孤独は深まる? オープンAIとMITが研究