KADOKAWA Technology Review
×
【3/14東京開催】若手研究者のキャリアを語り合う無料イベント 参加者募集中
大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か
Stephanie Arnett/MITTR
We could run out of data to train AI language programs 

大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か

近年、各企業がこぞって開発を進めている大規模言語モデルで、ある問題が指摘されている。同モデルを訓練するために必要な質のよい大量のデータが、早ければ2026年にも枯渇するというのだ。 by Tammy Xu2022.11.29

大規模言語モデルは現在、人工知能(AI)研究で特に活気ある分野の1つだ。各社は、理路整然とした記事のみならず、コンピューター・プログラムすら書くことのできる「GPT-3」のようなプログラムを競ってリリースしようとしている。だがAIの将来を予測しているチームによると、今、差し迫った問題があるという。それは、モデルを訓練するためのデータが枯渇するかもしれないという問題だ。

言語モデルは、ウィキペディアやニュース記事、科学論文、書籍などの情報源の文章を使って訓練される。近年は、正確性や汎用性の向上を目的に、モデルを訓練するためのデータをさらに増やそうという傾向がある。

だが問題は、言語モデルの訓練に通常使用される種類のデータが、近い将来、早ければ2026年にも枯渇する可能性があることだ。これは、AIの研究と予測をするエポック(Epoch)という団体が発表した論文で指摘されている。問題の原因は、研究者たちが能力の高い、より強力なモデルを構築するうえで、モデルを訓練するための文章をさらに見つけなければならないという事実にある。AI企業、ハギング・フェイス(Hugging Face)のテヴェン・レ・スカオ研究員(エポックの研究には不参加)は、大規模言語モデルの研究者はそうしたデータが枯渇することをますます心配していると語る。

問題の原因の一部は、言語AIの研究者が、モデルの訓練に使用するデータを「高品質」と「低品質」の2つのカテゴリーに分けていることにある。エポックの論文の筆頭著者である同社のパブロ・ヴィラロボス研究員によると、カテゴリーは境界が曖昧なこともあるという。高品質のデータはよく書けている文章を意味し、プロの書き手が作成したものであることが多い。

低品質カテゴリーのデータは、ソーシャルメディアへの投稿や「4ちゃん(4chan)」のようなWebサイトのコメントからなり、高品質とみなされるデータの量をはるかに上回っている。研究者は通常、高品質カテゴリーのデータのみを使ってモデルを訓練する。高品質なカテゴリーの言葉をモデルで再現したいと考えているからだ。こうした手法により、GPT-3などの大規模言語モデルで目覚ましい成果が出ている。

機械学習の専門家で、データセットの品質に詳しい南カリフォルニア大学のスワバ・スワヤムディプタ教授が言うには、データの制限を乗り越える1つの方法は、「低品質」「高品質」という定義を見直すことだ。データ不足のためにAI研究者がより広範なデータを訓練プロセスに組み入れるようになれば、それは言語モデルにとって「純増」になると同教授は言う。

言語モデルの訓練に使用されるデータの寿命を延ばす方法を探ることもできるだろう。現在のところ、性能やコスト面での制限のために、大規模言語モデルの訓練では同じデータを一度しか使っていない。だが、同じデータでモデルを数回訓練できる可能性もある、とスワヤムディプタ教授は指摘する。

一部の研究者は、こと言語モデルに関しては、大規模なモデルがそれに見合う利点をもたらさないかもしれないと考えている。スタンフォード大学のパーシー・リャン教授(コンピューター科学)は、単にモデルを大きくする代わりに効率を上げることで能力が向上する可能性を示す証拠があると言う。 「高品質のデータで訓練された小規模なモデルが、低品質のデータで訓練された大規模モデルの能力を上回ることができる例が見受けられます」と同教授は説明する。

人気の記事ランキング
  1. AI crawler wars threaten to make the web more closed for everyone 失われるWebの多様性——AIクローラー戦争が始まった
  2. Promotion Innovators Under 35 Japan × CROSS U 好評につき第2弾!研究者のキャリアを考える無料イベント【3/14】
  3. From COBOL to chaos: Elon Musk, DOGE, and the Evil Housekeeper Problem 米「DOGE暴走」、政府システムの脆弱性浮き彫りに
  4. What a major battery fire means for the future of energy storage 米大規模バッテリー火災、高まる安全性への懸念
  5. A new Microsoft chip could lead to more stable quantum computers マイクロソフト、初の「トポロジカル量子チップ」 安定性に強み
タミー・シュ [Tammy Xu]米国版 エマージング・ジャーナリスト・フェロー
MITテクノロジーレビューのエマージング・ジャーナリスト・フェロー。
▼Promotion
U35イノベーターと考える 研究者のキャリア戦略 vol.2
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る