KADOKAWA Technology Review
×
2024年を代表する若きイノベーターたちに会える!【11/20】は東京・日本橋のIU35 Japan Summitへ
大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か
Stephanie Arnett/MITTR
We could run out of data to train AI language programs 

大規模言語AIにアキレス腱、訓練用データが2026年にも枯渇か

近年、各企業がこぞって開発を進めている大規模言語モデルで、ある問題が指摘されている。同モデルを訓練するために必要な質のよい大量のデータが、早ければ2026年にも枯渇するというのだ。 by Tammy Xu2022.11.29

大規模言語モデルは現在、人工知能(AI)研究で特に活気ある分野の1つだ。各社は、理路整然とした記事のみならず、コンピューター・プログラムすら書くことのできる「GPT-3」のようなプログラムを競ってリリースしようとしている。だがAIの将来を予測しているチームによると、今、差し迫った問題があるという。それは、モデルを訓練するためのデータが枯渇するかもしれないという問題だ。

言語モデルは、ウィキペディアやニュース記事、科学論文、書籍などの情報源の文章を使って訓練される。近年は、正確性や汎用性の向上を目的に、モデルを訓練するためのデータをさらに増やそうという傾向がある。

だが問題は、言語モデルの訓練に通常使用される種類のデータが、近い将来、早ければ2026年にも枯渇する可能性があることだ。これは、AIの研究と予測をするエポック(Epoch)という団体が発表した論文で指摘されている。問題の原因は、研究者たちが能力の高い、より強力なモデルを構築するうえで、モデルを訓練するための文章をさらに見つけなければならないという事実にある。AI企業、ハギング・フェイス(Hugging Face)のテヴェン・レ・スカオ研究員(エポックの研究には不参加)は、大規模言語モデルの研究者はそうしたデータが枯渇することをますます心配していると語る。

問題の原因の一部は、言語AIの研究者が、モデルの訓練に使用するデータを「高品質」と「低品質」の2つのカテゴリーに分けていることにある。エポックの論文の筆頭著者である同社のパブロ・ヴィラロボス研究員によると、カテゴリーは境界が曖昧なこともあるという。高品質のデータはよく書けている文章を意味し、プロの書き手が作成したものであることが多い。

低品質カテゴリーのデータは、ソーシャルメディアへの投稿や「4ちゃん(4chan)」のようなWebサイトのコメントからなり、高品質とみなされるデータの量をはるかに上回っている。研究者は通常、高品質カテゴリーのデータのみを使ってモデルを訓練する。高品質なカテゴリーの言葉をモデルで再現したいと考えているからだ。こうした手法により、GPT-3などの大規模言語モデルで目覚ましい成果が出ている。

機械学習の専門家で、データセットの品質に詳しい南カリフォルニア大学のスワバ・スワヤムディプタ教授が言うには、データの制限を乗り越える1つの方法は、「低品質」「高品質」という定義を見直すことだ。データ不足のためにAI研究者がより広範なデータを訓練プロセスに組み入れるようになれば、それは言語モデルにとって「純増」になると同教授は言う。

言語モデルの訓練に使用されるデータの寿命を延ばす方法を探ることもできるだろう。現在のところ、性能やコスト面での制限のために、大規模言語モデルの訓練では同じデータを一度しか使っていない。だが、同じデータでモデルを数回訓練できる可能性もある、とスワヤムディプタ教授は指摘する。

一部の研究者は、こと言語モデルに関しては、大規模なモデルがそれに見合う利点をもたらさないかもしれないと考えている。スタンフォード大学のパーシー・リャン教授(コンピューター科学)は、単にモデルを大きくする代わりに効率を上げることで能力が向上する可能性を示す証拠があると言う。 「高品質のデータで訓練された小規模なモデルが、低品質のデータで訓練された大規模モデルの能力を上回ることができる例が見受けられます」と同教授は説明する。

人気の記事ランキング
  1. How ChatGPT search paves the way for AI agents 脱チャットGPTへ、オープンAIが強化するプラットフォーム戦略
  2. Promotion Innovators Under 35 Japan Summit 2024 in Nihonbashi 2024年のイノベーターが集結「U35 Summit」参加者募集中
  3. This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
  4. Inside a fusion energy facility 2026年の稼働目指す、コモンウェルスの核融合施設へ行ってみた
タミー・シュ [Tammy Xu]米国版 エマージング・ジャーナリスト・フェロー
MITテクノロジーレビューのエマージング・ジャーナリスト・フェロー。
▼Promotion イノベーター under35 2024
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年受賞者決定!授賞式を11/20に開催します。チケット販売中。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る