人工知能(AI)の新モデルが発表されるとたいていの場合、一連のベンチマークテストで優れたスコアを出したと大々的に宣伝される。たとえば、オープンAIが5月にGPT-4oを発表したとき、その性能が複数のテストにおいて他のすべてのAI企業の最新モデルを上回ったことを示す結果が公表された。
ただし、問題がある。新たな研究結果によると、これらのベンチマークは、設計が不十分で、結果を再現するのが難しく、使用されている指標がしばしば恣意的であるというのだ。これは重要なことだ。なぜなら、AIモデルはこのようなベンチマークに対するスコアによって、受ける精査や規制のレベルが決まるからだ。
この論文の著者で、スタンフォード大学のコンピューター科学の博士課程に在籍し、同大学のAIセーフティセンター(CAIS:Center for AI Safety)のメンバーであるアンカ・ロイエルは、「優れた評価基準がないため、まるで無法地帯のようです」と語る。
ベンチマークとは、基本的にAIが受けるテストである。「大規模マルチタスク言語理解(MMLU)」と呼ばれる、最も広く使われているベンチマークのような多肢選択形式の場合もあれば、特定のタスクをこなすAIの能力評価であったり、一連の質問に対するAIの応答テキストの質の評価であったりする。
AI企業は、新しいモデルの成功の証としてベンチマークをしばしば引用する。「こうしたモデルの開発者は、特定のベンチマークに合わせて最適化する傾向があります」と、ジョージア工科大学の心理学教授で、同大学の言語・知能・思考(Language, Intelligence, and Thought:LIT)ラボの責任者であるアンナ・イヴァノヴァ助教授は語る。イヴァノヴァ助教授はスタンフォード大学の今回の研究には関与していない。
こうしたベンチマークは、すでに一部の政府のAI規制計画に取り入れられている。たとえば、2025年8月に施行される欧州連合(EU)の「AI法」では、AIモデルが「システミック・リスク」を示しているかどうかを判断するためのツールとしてベンチマークを参照している。もし示していると判断されれば、より厳しい精査と規制の対象となる。AIの安全性を評価する機関である英国AIセーフティ研究所(AI Safety Institute)は、大規模言語モデルの安全性を評価するためのフレームワーク「インスペクト(Inspect)」でベンチマークを参照している。
しかし、現時点では、ベンチマークをそのように使うのは、あまり好ましくないかもしれない。「ベンチマークが適切に設計されていない場合、特にリスクの大きい使用事例では、ベンチマークによって誤った安心感が生み出される可能性があります」とロイエルは言う。「安全ではないモデルが、安全であるかのように見えるかもしれません」 。
ベンチマークの重要性が高まっていることから、ロイエルらは、最もよく知られている例を調べて、優れたベンチマークとはどのようなものか、使われているベンチマークが十分に堅固 …