KADOKAWA Technology Review
×
【冬割】 年間購読料20%オフキャンペーン実施中!
AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?
Jeremy Lwanga/Unsplash
Error-riddled datasets are warping our sense of how good AI really is

AIモデル評価用データセットに多数の誤り、実は優秀ではなかった?

MITの研究者が、人工知能(AI)の機械学習モデルの評価に使われている有名なデータセットの中に、誤ってラベル付けされたデータが多数含まれていることを発見した。最も優れていると見なされていたAIモデルが、実はそうではなかったという事態が発生するかもしれない。 by Karen Hao2021.04.05

人工知能(AI)の研究で最も利用されている10種類のデータセットには、ラベル付けに多数の誤りがあることがマサチューセッツ工科大学(MIT)の新たな研究でわかった。AI分野の進歩に対する私たちの認識は正確なものではなかったということだ。

データセットはAI研究の中核となるものだが、そのデータセットの中でも特に重要度が高いものがある。AIの能力が時間を経るにつれてどう向上しているかを調べるために機械学習モデルの評価に使用される、核となるデータセットが存在するのだ。よく知られているものには、現代のAI革命のきっかけとなった画像認識データセットの代表格である「イメージネット(ImageNet)」がある。また、0から9までの手書きの数字の画像を収集した「エムニスト(MNIST)」というデータセットもある。その他にも、音声やテキスト、手書きの絵などを認識するように訓練されたモデルをテストするためのデータセットが存在する。

近年、これらのデータセットには重大な欠陥が含まれている可能性があることが研究により判明している。例えば、イメージネットには、人種差別的・性差別的なラベル同意なしに取得された顔写真が含まれている。今回の最新の研究では、別の問題に焦点が当てられている。それは、ラベルの多くが完全に間違っているということだ。キノコにはスプーン、カエルにはネコ、歌手のアリアナ・グランデの高音にはホイッスルというラベルが付けられてしまっている。推定によると、イメージネットのテストセットによるラベルエラー率は5.8%だ。一方、手書きの絵を収集した「クイック・ドロー(QuickDraw)」のテストセットによるエラー率は10.1%と推定されている。

モデルの評価に使用される10種類のデータセットにはそれぞれ、そのモデルを訓練するために使用されたデータセットがある。今回の研究をしたMIT大学院生のカーティス・G・ノースカット、アニッシュ・アタリー、ジョナス・ミューラーは、訓練用データセットを使って機械学習モデルを開発し、テストデータのラベル付けの予測に使用した。このモデルが元のラベルと一致しない場合は、そのデータポイントにフラグを立て、人による確認作業を実施した。具体的には、アマゾン・メカニカル・タークの5人のレビュアーが、このモデルの付けたラベルと元のラベルのどちらが正しいと思うかを投票した。人間のレビュアーの過半数がこのモデルのラベル付けに同意した場合、元のラベルは誤りとして集計され、その後修正された。

データセットのラベル付けに誤りがあることは、重大な問題だ。研究チームは、以前にイメージネットのテストセットに対する性能が測定された34種類のモデルを調査した。そして、データラベルが間違っていることが判明した約1500の例に対して各モデルを再評価した。その結果、元の 間違ったラベルではあまり良い評価が得られていなかったモデルが、ラベルを修正した後では最も良い評価を得られるようになった。特に、グーグルなどの大手テック企業が画像認識に使用し、最も優れていると見なされている複雑なモデルより、単純なモデルの方が、修正後のデータでは良い結果が得られるようであった。つまり、テストデータに欠陥があるために、より複雑なモデルの性能を実際よりも優れていると誤認識している可能性があるのだ。

ではどうすればよいのだろうか。ノースカットは、AI分野で、モデルの評価や同分野の進歩の調査に使用する、より欠陥の少ないデータセットを作成することを推奨している。また、研究者が自分のデータを扱う際には、データの正確性を改善することを勧めている。さもないと、「ノイズの多いデータセットを使って多くのモデルをテストし、実世界で導入しようとした場合」に間違ったモデルを選んでしまう可能性がある、とノースカットは言う。そのため、ノースカットは、今回の研究でラベルエラーを修正するために使用したコードをオープンソース化した。このコードは、すでにいくつかの大手テック企業で使われているとのことだ。

人気の記事ランキング
  1. Promotion Innovators Under 35 Japan × CROSS U 無料イベント「U35イノベーターと考える研究者のキャリア戦略」のご案内
  2. The 8 worst technology failures of 2024 MITTRが選ぶ、 2024年に「やらかした」 テクノロジー8選
  3. AI’s search for more energy is growing more urgent 生成AIの隠れた代償、激増するデータセンターの環境負荷
カーレン・ハオ [Karen Hao]米国版 AI担当記者
MITテクノロジーレビューの人工知能(AI)担当記者。特に、AIの倫理と社会的影響、社会貢献活動への応用といった領域についてカバーしています。AIに関する最新のニュースと研究内容を厳選して紹介する米国版ニュースレター「アルゴリズム(Algorithm)」の執筆も担当。グーグルX(Google X)からスピンアウトしたスタートアップ企業でのアプリケーション・エンジニア、クオーツ(Quartz)での記者/データ・サイエンティストの経験を経て、MITテクノロジーレビューに入社しました。
▼Promotion 冬割 年間購読料20%off
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る