人工知能(AI)はデータがすべてだ。アルゴリズムを訓練して必要な処理を実行させるには、膨大なデータが必要となる。そして、AIモデルが導き出す結果は、AIモデルに入力するデータの内容によって決まる。
ここで問題がある。AIの開発者や研究者には、使用しているデータの出所に関する知識をほとんど持っていないのだ。AIのデータ収集方法は、高度なAIモデルの開発と比べるとまだ未熟な状態にある。巨大なデータセットは、その中身や出所がはっきりしないことも少なくない。
学術界と産業界から集まった50人以上の研究者で構成される団体「データ来歴イニシアチブ(Data Provenance Initiative)」は、この問題を解決しようと考えた。知りたかったのは、「AIの訓練データはどこから来たのか?」という非常にシンプルな問いの答えだ。同団体は、67か国・600言語を含む、過去30年間にわたる約4000件の公開データセットを調査した。このデータは、重複しない800のデータソースと約700の組織から収集されたものだ。
MITテクノロジーレビューに独占的に提供された調査結果は、憂慮すべき傾向を示している。それは、AIのデータ収集方法には、少数の大手テック企業に権力が圧倒的に集中する危険性があるというものだ。
調査に参加したMITの研究者であるシェイン・ロンプレによれば、2010年代初頭にはデータセットの出所は多様であったという。
データは、百科事典やWebだけでなく、議会の議事録、決算報告書、天気予報などの情報源からも収集されていた。ロンプレによると、当時のAIデータセットは、個々のタスクに合わせて、さまざまなソースから具体的な目的のもと収集されていたという。
その後、言語モデルの基盤となるアーキテクチャであるTransformer(トランスフォーマー)が2017年に発明され、AI分野ではモデルやデータセットが大きくなればなるほど性能が向上するようになった。現在、AIの訓練に使用されるデータセットのほとんどは、インターネットから無差別に収集された素材で構成されている。2018年以降、音声、画像、動画といったあらゆるメディアで使用されるデータセットの収集源はWebが主流となり、スクレイピングされたデータと具体的な目的のもとで厳選されたデータセットの間にギャップが生じ、そのギャップは拡大している。
「基礎モデルの開発において、データとWebのスケールと異質性ほど、モデルの性能にとって重要なものはないようです」とロンプレは考えている。スケールの必要性はまた、合成データの利用を大幅に増大させた。
ここ数年は、動画や画像を生成できるマルチモーダル生成AIモデルも台頭してきた。大規模言語モデルと同様に、これらの生成AIモデルも可能な限り多くのデータが必要であり、そのための最適なデータ収 …