AIが「心の理論」テストで人間超え、この結果は何を意味するか

AI models can outperform humans in tests to identify mental states AIが「心の理論」テストで人間超え、この結果は何を意味するか

人工知能(AI)モデルが、人間の感情理解力を測るテストで人間並み、時に上回る成績を収めたことが分かった。ただ、訓練データにそうしたタスクが含まれていた可能性も否定できず、大規模言語モデルが「人のように」考えているわけではない。 by Rhiannon Williams2024.05.22

人間は複雑な存在だ。私たちのコミュニケーションの方法は多層的であり、心理学者たちは対話から意味や理解を推測する能力を測るためのテストを数多く考案してきた。

人工知能(AI)モデルは、こうしたテストでますます優れた結果を出している。ネイチャー・ヒューマン・ビヘイビア(Nature Human Behavior)に5月20日に掲載された新たな研究によると、一部の大規模言語モデル(LLM)は人の心理状態を追跡する能力(いわゆる「心の理論」と呼ばれる)を測るために設計されたタスクを与えられた場合、人間と同等、場合によっては人間を上回るパフォーマンスを発揮することが明らかになったという。

これは、AIシステムが実際に私たちの感情を理解できるという意味ではない。だが、心理学者が人間固有のものだと考えている能力を測る実験において、こうしたAIモデルがますますよい結果をあげていることを示している。こうしたタスクにおける大規模言語モデルの成功と失敗の裏にあるプロセスをより詳細に紐解くため、研究者たちは心の理論をテストするために用いるのと同じ体系的アプローチの適用を考えた。

理論上、人間を模倣する能力が高ければ高いほど、AIモデルと私たちとの対話はより有益かつ共感力の高いものになる。オープンAI(OpenAI)とグーグルは5月中旬、超強化されたAIアシスタントを発表した。GPT-4oAstra(アストラ)は、これまでのAIアシスタントよりはるかにスムーズで自然な対応ができるよう設計されている。だがたとえそのようなAIアシスタントが人間らしく見えたとしても、そうした能力が人間的であるという考えに陥ってしまうのは避けなければならない。

「私たちには、心を持たない存在に対しても、精神状態や心、志向性が備わっていると考えてしまう傾向があります」。今回の研究に参加したハンブルク−エッペンドルフ大学医療センター神経科学部教授のクリスティーナ・ベッキオは話す。「心の理論を大規模言語モデルに結びつけるリスクはそこにあります」。

心の理論は、お互いの意図を察し、関わり合いを持ったり共感し合ったりするための感情的・社会的知性の証である。大半の子どもはこうしたスキルを3~5歳の間に身につける。

研究チームはオープンAIのGPT-3.5とGPT-4、そしてメタのLlama(ラマ)の3バージョンという2つの大規模言語モデル群を対象に、人間の心の理論を測るために設計されたタスクでテストした。その内容は、誤信念の特定、社会的失言の認識、直接的に発せられた言葉ではなくそこに暗示されている内容の理解などだ。また比較のため、人間の参加者1907人に対してもテストが実施された。

研究チームは次の5種類のテストを実施した。

  1. 間接的なコメントから他者の本当の意図を推察する能力を図るために設計されている、暗示タスクのテスト。
  2. 自分が偶然にも事実でないと知っていることを、他者は合理的にそれが事実だと考えうると推察する能力があるか否かを評価する、誤信念タスクのテスト。
  3. 人が社会的な失言をした際、それを認識する能力を測るテスト。
  4. 奇妙な物語で構成されるテスト。このテストでは語られたこととそれが何を意味しているかの対比を説明できるかを評価するために、主人公が異常な行動を取るという内容になっている。
  5. 皮肉を理解できるかを測るテスト。

対象のAIモデルには個別のチャットで各テストが15回ずつ実施された。チャットが分けられているのは、各リクエストを独立して処理するためだ。AIの回答は、人間と同じように採点された。その後、研究チームは人間のボランティアにテストを実施し、2つのスコアセットを比較した。

GPTは両バージョン共に、間接的な要求、誤認に導く説明、誤信念に関するタスクで人間の平均と同等、場合によっては上回る結果を出した。またGPT-4は皮肉、暗示、奇妙な物語のテストで人間を上回った。Llamaの3モデルは人間の平均を下回った。

だがテストを実施したメタの3つのモデルのうちで最大のモデルであるLlama 2は、社会的失言の認識に関して人間を上回った。一方のGPTは、このテストでは一貫して誤った回答をし続けた。論文の著者は、GPTは大半の場合において何らかの形で答えを出すために十分な情報がないと回答したことを理由に、GPTが意見に対する結論を生成することを全般的に忌避していることが原因だと考えている。

「これらのモデルが、人間の心の理論を示しているのでないことは確かです」と論文の著者は話す。「しかし、私たちが示しているのは、(これらのモデルに)登場人物や人の心について、心理的推測や推論に至る能力があるということです」。

カーネギーメロン大学助教授のマーテン・サップは、大規模言語モデルが好成績を収めることができた理由の1つとして、こうした心理テストは定着しているため、対象となったAIモデルの訓練データに含まれていた可能性が高いとの見方を示す(同助教授は今回の研究には関わっていない)。「誤信念テストを実施するにあたって、子どもはおそらく同じテストを目にしたことがないのに対し、言語モデルは(テストが)誤信念課題である可能性を認識していることが非常に重要です」と同助教授は言う。

結局のところ、私たちは未だに大規模言語モデルがどのように機能しているかを理解できていない。こうした研究は、この手のモデルにできること、できないことについての理解を深めるのに役立つと、ハーバード大学の認知科学者で、今回のプロジェクトには関わっていないトマー・ウルマン助教授は言う。だが大規模言語モデルにこうしたテストを実施する際、私たちは本当のところ何を測っているのかを心に留めておくことが重要だ。AIが心の理論を測るために作られたテストで人間を上回ったとしても、AIが心の理論を持っていることにはならない。「私はベンチマーク反対派ではありませんが、現時点でこれまでの私たちのベンチマークの利用方法は、その有用性の限界に達しつつあるという懸念を抱いている人間の1人ではあります」と同助教授は話す。

「大規模言語モデルがどうやってベンチマークをパスする方法を学んだのであれ、それは人間らしいやり方ではないと私は思います」。