「ご都合主義」蔓延るAIベンチマーク、問われる評価基準の信頼性
AIモデルに対して実施するベンチマークテストは、企業が自社のモデルの性能をアピールするためにしばしば利用される。だが、新たな研究によると、こうしたベンチマークテストは、設計が不十分であることが多いという。 by Scott J Mulligan2024.11.29
- この記事の3つのポイント
-
- AIベンチマークは設計に問題、結果の再現性や指標に課題
- ベンチマークの品質向上には専門家の関与や能力の適切な定義などが重要
- 今後のAI評価や規制には優れたベンチマークの開発が不可欠
人工知能(AI)の新モデルが発表されるとたいていの場合、一連のベンチマークテストで優れたスコアを出したと大々的に宣伝される。たとえば、オープンAIが5月にGPT-4oを発表したとき、その性能が複数のテストにおいて他のすべてのAI企業の最新モデルを上回ったことを示す結果が公表された。
ただし、問題がある。新たな研究結果によると、これらのベンチマークは、設計が不十分で、結果を再現するのが難しく、使用されている指標がしばしば恣意的であるというのだ。これは重要なことだ。なぜなら、AIモデルはこのようなベンチマークに対するスコアによって、受ける精査や規制のレベルが決まるからだ。
この論文の著者で、スタンフォード大学のコンピューター科学の博士課程に在籍し、同大学のAIセーフティセンター(CAIS:Center for AI Safety)のメンバーであるアンカ・ロイエルは、「優れた評価基準がないため、まるで無法地帯のようです」と語る。
ベンチマークとは、基本的にAIが受けるテストである。「大規模マルチタスク言語理解(MMLU)」と呼ばれる、最も広く使われているベンチマークのような多肢選択形式の場合もあれば、特定のタスクをこなすAIの能力評価であったり、一連の質問に対するAIの応答テキストの質の評価であったりする。
AI企業は、新しいモデルの成功の証としてベンチマークをしばしば引用する。「こうしたモデルの開発者は、特定のベンチマークに合わせて最適化する傾向があります」と、ジョージア工科大学の心理学教授で、同大学の言語・知能・思考(Language, Intelligence, and Thought:LIT)ラボの責任者であるアンナ・イヴァノヴァ助教授は語る。イヴァノヴァ助教授はスタンフォード大学の今回の研究には関与していない。
こうしたベンチマークは、すでに一部の政府のAI規制計画に取り入れられている。たとえば、2025年8月に施行される欧州連合(EU)の「AI法」では、AIモデルが「システミック・リスク」を示しているかどうかを判断するためのツールとしてベンチマークを参照している。もし示していると判断されれば、より厳しい精査と規制の対象となる。AIの安全性を評価する機関である英国AIセーフティ研究所(AI Safety Institute)は、大規模言語モデルの安全性を評価するためのフレームワーク「インスペクト(Inspect)」でベンチマークを参照している。
しかし、現時点では、ベンチマークをそのように使うのは、あまり好ましくないかもしれない。「ベンチマークが適切に設計されていない場合、特にリスクの大きい使用事例では、ベンチマークによって誤った安心感が生み出される可能性があります」とロイエルは言う。「安全ではないモデルが、安全であるかのように見えるかもしれません」 。
ベンチマークの重要性が高まっていることから、ロイエルらは、最もよく知られている例を調べて、優れたベンチマークとはどのようなものか、使われているベンチマークが十分に堅固 …
- 人気の記事ランキング
-
- Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
- Exosomes are touted as a trendy cure-all. We don’t know if they work. 「奇跡の薬」エクソソーム、 効果不明も高額治療が横行
- Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
- AI can now create a replica of your personality AIとの2時間の会話で「そっくりさん」、スタンフォードら新技術