動画はほぼユーチューブ、
大規模調査で分かった
AI訓練データの一極集中
AIの訓練に使用されるデータセットのほとんどは、インターネットから無差別に収集されている。研究者グループの大規模な調査から、現在のAIのデータ収集方法には、少数の大手テック企業に権力が圧倒的に集中する危険性があることが分かった。 by Stephanie Arnett2024.12.20
- この記事の3つのポイント
-
- AIの訓練データの出所は不明瞭で少数の大手企業に集中している
- データの大部分はWebから無作為に収集されており多様性に欠ける
- データの偏りからAIには欧米中心のバイアスがかかる危険性がある
人工知能(AI)はデータがすべてだ。アルゴリズムを訓練して必要な処理を実行させるには、膨大なデータが必要となる。そして、AIモデルが導き出す結果は、AIモデルに入力するデータの内容によって決まる。
ここで問題がある。AIの開発者や研究者には、使用しているデータの出所に関する知識をほとんど持っていないのだ。AIのデータ収集方法は、高度なAIモデルの開発と比べるとまだ未熟な状態にある。巨大なデータセットは、その中身や出所がはっきりしないことも少なくない。
学術界と産業界から集まった50人以上の研究者で構成される団体「データ来歴イニシアチブ(Data Provenance Initiative)」は、この問題を解決しようと考えた。知りたかったのは、「AIの訓練データはどこから来たのか?」という非常にシンプルな問いの答えだ。同団体は、67か国・600言語を含む、過去30年間にわたる約4000件の公開データセットを調査した。このデータは、重複しない800のデータソースと約700の組織から収集されたものだ。
MITテクノロジーレビューに独占的に提供された調査結果は、憂慮すべき傾向を示している。それは、AIのデータ収集方法には、少数の大手テック企業に権力が圧倒的に集中する危険性があるというものだ。
調査に参加したMITの研究者であるシェイン・ロンプレによれば、2010年代初頭にはデータセットの出所は多様であったという。
データは、百科事典やWebだけでなく、議会の議事録、決算報告書、天気予報などの情報源からも収集されていた。ロンプレによると、当時のAIデータセットは、個々のタスクに合わせて、さまざまなソースから具体的な目的のもと収集されていたという。
その後、言語モデルの基盤となるアーキテクチャであるTransformer(トランスフォーマー)が2017年に発明され、AI分野ではモデルやデータセットが大きくなればなるほど性能が向上するようになった。現在、AIの訓練に使用されるデータセットのほとんどは、インターネットから無差別に収集された素材で構成されている。2018年以降、音声、画像、動画といったあらゆるメディアで使用されるデータセットの収集源はWebが主流となり、スクレイピングされたデータと具体的な目的のもとで厳選されたデータセットの間にギャップが生じ、そのギャップは拡大している。
「基礎モデルの開発において、データとWebのスケールと異質性ほど、モデルの性能にとって重要なものはないようです」とロンプレは考えている。スケールの必要性はまた、合成データの利用を大幅に増大させた。
ここ数年は、動画や画像を生成できるマルチモーダル生成AIモデルも台頭してきた。大規模言語モデルと同様に、これらの生成AIモデルも可能な限り多くのデータが必要であり、そのための最適なデータ収 …
- 人気の記事ランキング
-
- Google’s new Project Astra could be generative AI’s killer app 世界を驚かせたグーグルの「アストラ」、生成AIのキラーアプリとなるか
- These AI Minecraft characters did weirdly human stuff all on their own マイクラ内に「AI文明」、 1000体のエージェントが 仕事、宗教、税制まで作った
- The world’s next big environmental problem could come from space 次の環境問題は宇宙から? 科学者たちが追う 人工衛星の「遺灰」の行方
- Google’s new Project Astra could be generative AI’s killer app 世界を驚かせたグーグルの「アストラ」、生成AIのキラーアプリとなるか