「外部知識で進化する言語モデル、より信頼できるAIへ」浅井明里
持続可能エネルギー

IU35 Japan Summit 2024: Akari Asai 「外部知識で進化する言語モデル、より信頼できるAIへ」浅井明里

MITテクノロジーレビュー「Innovators Under 35 Japan Summit 2024」から、ワシントン大学所属の浅井明里氏のプレゼンテーションの内容を要約して紹介する。 by MIT Technology Review Japan2025.01.14

MITテクノロジーレビューは2024年11月20日、「Innovators Under 35 Japan Summit 2024」を開催した。Innovators Under 35は、テクノロジーを用いて世界的な課題解決に取り組む若きイノベーターの発掘、支援を目的とするアワード。5 回目の開催となる本年度は、国内外で活躍する35歳未満の起業家や研究者など10名のイノベーターを選出した。

その受賞者が集う本サミットでは、各受賞者が自らの活動内容とその思い、今後の抱負を3分間で語った。プレゼンテーションの内容を要約して紹介する。

浅井明里(ワシントン大学) 

自然言語処理の研究者として、人間の言語を処理できるコンピューター・システム、人工知能(AI)の開発に取り組んでいます。特にここ数年は大規模言語モデルの研究に注力していますが、この分野は過去5年で大きな進歩を遂げました。モデルの大規模化と学習データの増加により、一つのモデルで多様なタスクをこなせるようになり、ChatGPTやGoogle Geminiが私たちの日常生活で活用されています。

こうした大規模言語モデルの発展により、医療や金融など、より専門的で信頼性が要求される分野でのAIの活用が検討されています。しかし、大規模言語モデルは、そうした正確性や安全性が要求される分野で十分に信頼できるのでしょうか。現時点ではそう言えないと私は考えています。例えば、ハルシネーション(幻覚)の問題では、実際に存在しない判例を裁判で引用しようとした米国の弁護士が罰金刑を受けるなど、現実社会での問題も発生しています。また、環境負荷や著作権侵害なども課題となっています。

これらの問題は、現在の言語モデルの構築方法に起因しています。数百億から数兆のパラメーターを、Webから収集した大量の学習データで更新する現在の手法では、すべての知識をパラメーター内に完全に記録することは困難です。

そこで私は、「検索拡張付き言語モデル」(Retrieval-Augmented Language Model)という分野を提案し、第一人者として開発を進めてきました。これは、すべての知識をモデル内に暗記するのではなく、必要に応じて外部知識を参照する仕組みです。この方式により、ハルシネーションの低減とモデルの小型化が可能になります。最近ではこの技術を実世界でどう使えるか? ということに興味があり、直近ではアレン人工知能研究所(Ai2)との共同研究で、研究者のあらゆる質問に回答できる「OpenScholar(オープンスカラー)」というシステムをリリースしました。

アルゴリズム、インフラストラクチャー、応用面でまだ多くの課題が残されていますが、さまざまな研究者や技術者と協力しながら、この分野の発展に貢献していきたいと考えています。