KADOKAWA Technology Review
×
「ご都合主義」蔓延るAIベンチマーク、問われる評価基準の信頼性
Sarah Rogers/MITTR | Photos Getty
人工知能(AI) Insider Online限定
The way we measure progress in AI is terrible

「ご都合主義」蔓延るAIベンチマーク、問われる評価基準の信頼性

AIモデルに対して実施するベンチマークテストは、企業が自社のモデルの性能をアピールするためにしばしば利用される。だが、新たな研究によると、こうしたベンチマークテストは、設計が不十分であることが多いという。 by Scott J Mulligan2024.11.29

この記事の3つのポイント
  1. AIベンチマークは設計に問題、結果の再現性や指標に課題
  2. ベンチマークの品質向上には専門家の関与や能力の適切な定義などが重要
  3. 今後のAI評価や規制には優れたベンチマークの開発が不可欠
summarized by Claude 3

人工知能(AI)の新モデルが発表されるとたいていの場合、一連のベンチマークテストで優れたスコアを出したと大々的に宣伝される。たとえば、オープンAIが5月にGPT-4oを発表したとき、その性能が複数のテストにおいて他のすべてのAI企業の最新モデルを上回ったことを示す結果が公表された。

ただし、問題がある。新たな研究結果によると、これらのベンチマークは、設計が不十分で、結果を再現するのが難しく、使用されている指標がしばしば恣意的であるというのだ。これは重要なことだ。なぜなら、AIモデルはこのようなベンチマークに対するスコアによって、受ける精査や規制のレベルが決まるからだ。

この論文の著者で、スタンフォード大学のコンピューター科学の博士課程に在籍し、同大学のAIセーフティセンター(CAIS:Center for AI Safety)のメンバーであるアンカ・ロイエルは、「優れた評価基準がないため、まるで無法地帯のようです」と語る。

ベンチマークとは、基本的にAIが受けるテストである。「大規模マルチタスク言語理解(MMLU)」と呼ばれる、最も広く使われているベンチマークのような多肢選択形式の場合もあれば、特定のタスクをこなすAIの能力評価であったり、一連の質問に対するAIの応答テキストの質の評価であったりする。

AI企業は、新しいモデルの成功の証としてベンチマークをしばしば引用する。「こうしたモデルの開発者は、特定のベンチマークに合わせて最適化する傾向があります」と、ジョージア工科大学の心理学教授で、同大学の言語・知能・思考(Language, Intelligence, and Thought:LIT)ラボの責任者であるアンナ・イヴァノヴァ助教授は語る。イヴァノヴァ助教授はスタンフォード大学の今回の研究には関与していない。

こうしたベンチマークは、すでに一部の政府のAI規制計画に取り入れられている。たとえば、2025年8月に施行される欧州連合(EU)の「AI法」では、AIモデルが「システミック・リスク」を示しているかどうかを判断するためのツールとしてベンチマークを参照している。もし示していると判断されれば、より厳しい精査と規制の対象となる。AIの安全性を評価する機関である英国AIセーフティ研究所(AI Safety Institute)は、大規模言語モデルの安全性を評価するためのフレームワーク「インスペクト(Inspect)」でベンチマークを参照している。

しかし、現時点では、ベンチマークをそのように使うのは、あまり好ましくないかもしれない。「ベンチマークが適切に設計されていない場合、特にリスクの大きい使用事例では、ベンチマークによって誤った安心感が生み出される可能性があります」とロイエルは言う。「安全ではないモデルが、安全であるかのように見えるかもしれません」 。

ベンチマークの重要性が高まっていることから、ロイエルらは、最もよく知られている例を調べて、優れたベンチマークとはどのようなものか、使われているベンチマークが十分に堅固 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
  2. Who’s to blame for climate change? It’s surprisingly complicated. CO2排出「責任論」、単一指標では語れない複雑な現実
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る