KADOKAWA Technology Review
×
始めるならこの春から!年間サブスク20%オフのお得な【春割】実施中
動画はほぼユーチューブ、
大規模調査で分かった
AI訓練データの一極集中
Stephanie Arnett/MIT Technology Review | Adobe Stock
人工知能(AI) Insider Online限定
This is where the data to build AI comes from

動画はほぼユーチューブ、
大規模調査で分かった
AI訓練データの一極集中

AIの訓練に使用されるデータセットのほとんどは、インターネットから無差別に収集されている。研究者グループの大規模な調査から、現在のAIのデータ収集方法には、少数の大手テック企業に権力が圧倒的に集中する危険性があることが分かった。 by Stephanie Arnett2024.12.20

この記事の3つのポイント
  1. AIの訓練データの出所は不明瞭で少数の大手企業に集中している
  2. データの大部分はWebから無作為に収集されており多様性に欠ける
  3. データの偏りからAIには欧米中心のバイアスがかかる危険性がある
summarized by Claude 3

人工知能(AI)はデータがすべてだ。アルゴリズムを訓練して必要な処理を実行させるには、膨大なデータが必要となる。そして、AIモデルが導き出す結果は、AIモデルに入力するデータの内容によって決まる。

ここで問題がある。AIの開発者や研究者には、使用しているデータの出所に関する知識をほとんど持っていないのだ。AIのデータ収集方法は、高度なAIモデルの開発と比べるとまだ未熟な状態にある。巨大なデータセットは、その中身や出所がはっきりしないことも少なくない。

学術界と産業界から集まった50人以上の研究者で構成される団体「データ来歴イニシアチブ(Data Provenance Initiative)」は、この問題を解決しようと考えた。知りたかったのは、「AIの訓練データはどこから来たのか?」という非常にシンプルな問いの答えだ。同団体は、67か国・600言語を含む、過去30年間にわたる約4000件の公開データセットを調査した。このデータは、重複しない800のデータソースと約700の組織から収集されたものだ。

MITテクノロジーレビューに独占的に提供された調査結果は、憂慮すべき傾向を示している。それは、AIのデータ収集方法には、少数の大手テック企業に権力が圧倒的に集中する危険性があるというものだ。

調査に参加したMITの研究者であるシェイン・ロンプレによれば、2010年代初頭にはデータセットの出所は多様であったという。

データは、百科事典やWebだけでなく、議会の議事録、決算報告書、天気予報などの情報源からも収集されていた。ロンプレによると、当時のAIデータセットは、個々のタスクに合わせて、さまざまなソースから具体的な目的のもと収集されていたという。

その後、言語モデルの基盤となるアーキテクチャであるTransformer(トランスフォーマー)が2017年に発明され、AI分野ではモデルやデータセットが大きくなればなるほど性能が向上するようになった。現在、AIの訓練に使用されるデータセットのほとんどは、インターネットから無差別に収集された素材で構成されている。2018年以降、音声、画像、動画といったあらゆるメディアで使用されるデータセットの収集源はWebが主流となり、スクレイピングされたデータと具体的な目的のもとで厳選されたデータセットの間にギャップが生じ、そのギャップは拡大している。

「基礎モデルの開発において、データとWebのスケールと異質性ほど、モデルの性能にとって重要なものはないようです」とロンプレは考えている。スケールの必要性はまた、合成データの利用を大幅に増大させた。

ここ数年は、動画や画像を生成できるマルチモーダル生成AIモデルも台頭してきた。大規模言語モデルと同様に、これらの生成AIモデルも可能な限り多くのデータが必要であり、そのための最適なデータ収 …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. Promotion MITTR Emerging Technology Nite #32 Plus 中国AIをテーマに、MITTR「生成AI革命4」開催のご案内
  2. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
  3. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
  4. Tariffs are bad news for batteries トランプ関税で米電池産業に大打撃、主要部品の大半は中国製
▼Promotion
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る