AI trained on AI garbage spits out AI garbage

生成AIのデジタル劣化問題、ゴミがゴミを生み出す最悪の未来

大規模言語モデルが機能するためにはインターネット上の膨大なデータで訓練する必要がある。今後、AIが生成した低品質のWebページがネット上に急増すると、そのデータで訓練された大規模言語モデルの性能が劣化することが懸念されている。 by Scott J Mulligan2024.08.01

この記事の3つのポイント

AIモデルは低品質のAI生成データで訓練されると徐々に劣化する
合成データを追加しても問題ないが高品質で多様なデータが重要だ
データの出所を特定し、人間が作成した元データを重視する必要がある

summarized by Claude 3

人工知能（AI）モデルは、インターネットから取得した膨大な量のデータを使って訓練することで機能する。ところが、低品質のコンテンツで埋め尽くされたWebページをAIがどんどん量産するにつれ、そのプロセスが揺るがされる危険性が増している。

ネイチャー（Nature）誌に発表された新たな研究によると、AI生成のデータを使ってAIモデルを訓練すると、モデルの出力の品質は徐々に劣化するという。後続のモデル群が生成した出力データが将来のモデルの訓練に使われるようになると、その影響は悪化の一途をたどる。

オックスフォード大学のコンピューター科学者で、今回の研究を主導したイリア・シュマイロフ博士は、その過程を「写真の写真を撮ること」にたとえる。「写真を撮ってスキャンし、紙面に印刷する、というサイクルを長期間繰り返すと、一般的にはノイズがプロセス全体を押しつぶしてしまいます。あとに残るのは黒い四角形だけです」。AIにおける黒い四角形が「モデル崩壊」であり、モデルが一貫性のないゴミを生成するだけになった状態を指す。

この研究結果は、インターネットをデータベースとして使っている現在の最大のAIモデルに重大な影響を及ぼす可能性がある。たとえば、GPT-3の一部は、30億を超えるWebページのオンラインリポジトリであるコモン・クロール（Common Crawl）のデータで訓練されている。そして、AIが生成したゴミのようなWebサイトの数が増え、インターネットの秩序が乱雑になっていくと、問題はさらに悪化する可能性が高い。

シュマイロフ博士は、現在のAIモデルが崩壊しなくても、実質的な影響は残るのではないかと言う。つまり、進歩の速度が落ち、パフォーマンスが低下するかもしれない。

パフォーマンスに影響が及ぶ可能性を判断するため、シュマイロフ博士らのチームは、ウィキペディアのデータセットで大規模言語モデル（LLM）を微調整（ファインチューニング）してから、その新しいモデルを9世代にわたって同モデルの出力データで微調整し、「困惑度スコア（perplexity score）」を利用して出力がどの程度意味をなしていないかを測定した。これは、シーケンスの次の部分を予測する能力に対するAIの自信の度合いを測る数値で、スコアが高いほどモデルの精度は低いと解釈される。

別のAIモデルの出力で訓練されたモデルの困惑度スコアはそれ以外の場合よりも高くなった。研究チームはたとえば、モデルの各世代に以下のような入力をしてモデルに続きの文章を要求した。

“some started before 1360—was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular.”
（参考訳）「ポインツ・ライトによれば、1360年以前に始まったものもあった。ベテランの石工と渡りの石工から成る小さなチームが作り上げ、地域の教区労働者が補助するのが普通だった。しかし、他の執筆者はこのモデルを否定し、有力な建築家らがパーペンディキュラー様式の初期の事例に基づいて教区教会の塔を設計したという説を唱えている」。

第9世代の最終モデルは次のように回答した。

“architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @-.”
（参考訳）「建築。オグロ @-@ ウサギ、オジロ @-@ ウサギ、オアオ @-@ ウサギ、オアカ @-@ ウサギ、キイロ @-など、野ウサギの世界最大級の生息地であることに加え」。

シュマイロフ博士は、このようなことがなぜ起こるのか、自分の考えを説明した。たとえば、全校生徒の中でいちばん希少な名前を特定しようとしているとする。生徒全員の名前について調べてもいいが、時間がかかりすぎる。そこで、1000人の生徒のうち100人の名前を調べることにする。まあ珍しい名前は見つかるだろうが、それを正解とは言えない。ここで、別の人が来て、あなたが調べた100人の名前から50人の名前だけを選択し、それに基づいて推測したとする。この2人目の予測はさらに正解から遠くなるはずだ。

「機械学習モデルでも同じことが起こるのは容易に想像できます」と、シュマイロフ博士は言う。「第1のモデルがインターネットの半分を参照した場合、おそらく第2のモデルはインターネットの半分を要求するのではなく、最新の10万件のツイートをスクレイピングするなどして、それをもとにモデルを調整するでしょう」。

加えて、インターネットが保持できるデータ量には限りがある。AIの尽きない学習意欲を満たすため、将来のモデルは合成データ、つまりAIが生成したデータで訓練しなければならないかもしれない。

MITメディアラボでLLMの訓練過程を研究しているシェイン・ロンプレ研究助手（先述の研究には関与していない）は、「基盤モデルのパフォーマンスは、データの規模に大きく依存します」と説明する。「その結果、解決策として、厳選・管理された環境下の合成データを頼みにするようになります。Web上のデータをどんどんクロールし続けていると、リターンが小さくなっていくからです」。

別の論文でモデルの崩壊を検証した、スタンフォード大学のAI研究者マティアス・ゲルストグラッサー博士は、現実世界のデータを置き換える代わりに合成データを追加しても大きな問題は発生しないと言う。ただし、「モデル崩壊に関するすべての文献が一貫して同意している結論は、高品質で多様な訓練用データが重要だということです」と付け加える。

やがては、この劣化が原因で、マイノリティのグループに影響を及ぼす情報がモデル内で大きく歪められるようになる。モデルは、訓練用データの中で比較的数が多いサンプルを過度に重視する傾向があるからだ。

MITメディアラボで計算法学を研究するロバート・マハリ（先述の研究には関与していない）によると、現在のモデルはさらに多くの合成（AI生成）データセットを必要としているため、データが少なめの言語に影響を及ぼす可能性があるという。

劣化を避ける対策はいくつか考えられる。人間が作成した元データを特に重視するよう、モデルに仕向けることがそのひとつだ。シュマイロフ博士の研究には続きがあり、将来の世代が元のデータセットの10%をサンプリングできるようにしたところ、負の影響はいくらか軽減したという。

この対策を実行するには、人間が作成した元データから次の世代までの軌跡、いわゆるデータ来歴を記録しなければならない。

しかし、データの出所を特定するには、インターネットを人間が作成したコンテンツとAIが生成したコンテンツに分類する方法が必要で、それはまだ確立されていない。現状、テキストがAI生成であるか否かを判断するためのツールは数多く存在するが、どれも必ずしも正確とは言えない。

「残念ながら、分かっていることよりも分かっていないことのほうが多いのです」と、シュマイロフ博士は言う。「ただ、扱うデータの代表的なサンプルを取り込むには、データの出所と信頼性を把握することが欠かせないのは明らかです」。

人気の記事ランキング

スコット・J・マリガン [Scott J Mulligan]米国版 AI担当記者: 政策、ガバナンス、AIの内部構造などを取材するAI担当記者。AIに特化した若手ジャーナリスト育成プログラム「ターベル・フェローシップ（Tarbell Fellowship）」の支援を受けている。ヴァイス（VICE）ニュースでのドキュメンタリー映像制作、ビデオゲーム・デザイナーなどを経て現職。

▼Promotion