司法試験合格でも保育園落第、チャットGPTで暴かれた知能評価の欠陥

Large language models aren’t people. Let’s stop testing them like they were. 司法試験合格でも保育園落第
チャットGPTで暴かれた
知能評価の欠陥

チャットGPTが司法試験で合格点を取ったという今年3月の発表は衝撃を与えた。一方で、大規模言語モデルは人間なら子どもでも解ける問題につまずくことも明らかになっている。期待と不安が渦巻く中、AIの能力をどのように測るか、真剣に考えるべき時が訪れている。 by Will Douglas Heaven2023.10.05

2022年の初頭、「GPT-3」をいじってみたテイラー・ウェッブ博士は、オープンAI(OpenAI)の大規模言語モデル(LLM)が持つポテンシャルに度肝を抜かれた。テキストブロック内の次の単語を予測するためだけに訓練された、ニューラル・ネットワークがそこには存在していた。規格外のオートコンプリート機能とも言える。しかも、ウェッブ博士が課したIQテストのような抽象的な問題の多くに、GPT-3は正しい答えを返したのだ。「こうした問題に正答する能力には、本当に衝撃を受けました」と彼は振り返る。「私の想定が根底から覆されました」。

ウェッブ博士はカリフォルニア大学ロサンゼルス校の心理学者で、抽象的な問題を解決する際の人間とコンピューターとの違いを研究している。彼は、特定の推論能力を組み込んだニューラル・ネットワークの構築に精通していた。しかし、GPT-3はそうした能力をひとりでに身につけたようなのだ。

ウェッブ博士の研究チームは今年7月、学術誌ネイチャー(Nature)に論文を発表した。この論文では、問題解決の際に用いる類推能力(類推推論としても知られる)を評価すべく考案された各種検査について、GPT-3が合格する能力を持つことが示されている。そのうちのいくつかのテストで、GPT-3は学部生の集団よりも良いスコアをマークした。「類推は人間の論理的思考の中核をなすものです。これは、あらゆる種類のマシン・インテリジェンスが備えるべき、最も重要な能力のひとつだと私たちは考えています」とウェッブ博士は説明する。

ウェッブ博士の研究が明らかにしたのは、大規模言語モデルが成し遂げた、数々の驚くべき芸当の最新例に過ぎない。たとえば、オープンAIが2023年3月にGPT-3の後継バージョンである「GPT-4」を発表した際に同社は、学校のテストや司法試験をはじめとする専門的・学術的評価テストの長々としたリストを公表し、最新の大規模言語モデルがそれらをクリアしたとアピールした。オープンAIはその後、マイクロソフトと協力し、GPT-4が米国医師国家試験の一部で合格点を取れることを実証した。

また、複数の研究者が、思考連鎖推論(問題を段階的に解決する能力)から心の理論(他人の考えを推測する能力)に至る、人間の特定の認知能力を確認すべく考案された各種検査において、大規模言語モデルが合格できることを証明したと主張している。

これら一連の結果は、こうした機械がやがてホワイトカラーの仕事を奪うようになり、教師、医師、ジャーナリスト、弁護士などの職が取って代わられるだろうと予測する、誇大宣伝装置の燃料となっている。こうしたテクノロジーの誕生に貢献した人物の一人であるジェフリー・ヒントンは、現在では深層学習テクノロジーを畏怖しており、理由の一つとして、GPT-4が複数の思考を結びつける能力を持っている点を挙げている。

しかしここで一つ、問題がある。こうした検査結果が本当に意味するところについては、ほとんど意見が一致していないのだ。人間的な知性のきらめきに魅了される人もいれば、全く納得できていない人もいる。

「大規模言語モデルの現在の評価方法には、いくつかの致命的な問題があります」と、イスラエルのラマト・ガンにあるバル=イラン大学のコンピューター科学者、ナタリー・シャピラ博士は指摘する。「真に持つ能力よりも、はるかに優れた能力があるかのような錯覚を起こさせているのです」。

こうした理由から、コンピューター科学者、認知科学者、神経科学者、言語学者といった大勢の研究者が、より厳格で徹底的な評価をすべく、評価方法の見直しを求めている。人間向けのテストで機械を採点するというやり方は絶対的に間違っており、止めるべきだという意見もある。

「人工知能(AI)が誕生した当初から、人々はIQテストをはじめとする人間用の知能検査を機械に対して実施してきました」と、ニューメキシコ州にあるサンタフェ研究所のAI研究者、メラニー・ミッチェル教授は言う。「一貫して言える問題は、このような機械に対する検査が何を意味するかということです。人間に対する検査とは異なる意味合いを持ちます」。

「この分野には擬人化が蔓延しています」とミッチェル教授は指摘する。「そしてそのことは、こうしたシステムに対する私たちの捉え方や検査方法に、ある種のバイアスを与えているのです」。

AIテクノロジーに対する期待と不安が最高潮に達している今、大規模言語モデルには何が可能で、何が不可能なのかをしっかりと見極めることが重要となる。

解釈の余地あり

大規模言語モデルの検査方法に関する問題の大半は、結果をどのように解釈するかという問題に集約される。

高校入試やIQテストのように、人間向けに作成された検査は、多くの前提の上で成り立っている。高得点を取った人は、テストで評価しようとしている知識、理解力、認知能力を持っていると考えて差し支えないだろう(実際には、このような推測はある程度までしか通用しない。学力試験は、必ずしも学生の真の能力を反映しているとは限らない。IQテストは、総合的な知能ではなく、特定のスキルを評価するものである。いずれのタイプの評価方法も、こうした種類のテストが得意な人に有利となる)。

しかし、大規模言語モデルがこうしたテストで高得点を取った場合、何が評価されたのかはまったくわからない。それは、実際に理解している証拠となるのだろうか? 深く考えず統計的処理をした結果だろうか? それとも単なる丸暗記によるものだろうか?

「人間の心を評価する手法の開発には、長い歴史があります」とグーグル・ディープマインドで上級研究科学者を務めるローラ・ワイディンガー博士は語る。「大規模言語モデルは人間が書いたような文章を生成できるため、人間向けの心理テストによる評価が有効だと考えたくなるのは無理もありません。しかし、それは間違いです。人間向けの心理テストは、大規模言語モデルには当てはまらないかもしれない多くの前提条件に基づいているのです」 。

ウェッブ博士は自らが足を踏み入れた問題が何なのか承知しており、「難しい問題だという共通の認識は持ち合わせています」と語る。そして、GPT-3が特定のテストでは学部生より良いスコアを出したにもかかわらず、他のテストでは無茶苦茶な答えを出した点について指摘した。たとえば、発達心理学者が子どもに時折実施する類の、物体に関する類推能力検査は惨敗に終わった。

この検査で、ウェッブ博士の研究チームはGPT-3にある物語を提示した。魔神が2つの瓶の間で宝石を移動させるという話だ。その後、ボール紙や厚紙で作った筒などを使って、ある器から別の器へガムボールを移動させる方法についてGPT-3に尋ねた。ポイントは、先に聞かせた話をヒントにどのような問題解決方法をGPT-3が導くかだ。「GPT-3は、凝った解決策は提案するものの、そのほとんどが仕組みとしては意味がなく、余分な手順がいくつもあった。さらに、ガムボールを二つの器間で移動させる際の明確な理屈も持ち合わせていなかった」と、研究チームはネイチャーに記している。

「この種の問題は、子どもでも簡単に解決できます」とウェッブ博士は言う。「こうしたシステムは、基礎 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。