人間の赤ちゃんは、どんなに優れた大規模言語モデルよりもはるかに高い学習能力をもっている。オープンAI(OpenAI)の「チャットGPT(ChapGPT)」がまともな英語を書けるようになるには、数百万~1兆語の単語を用いた膨大なデータセットによる訓練が必要だった。それに比べて子どもがアクセスできるデータ量ははるかに少ないが、3歳までにはかなり高度なコミュニケーションが可能となる。
ニューヨーク大学の研究チームは、人工知能(AI)が赤ちゃんと同じような方法で学習できないかと考えた。はるかに少量のデータセット、つまり会話を学ぶ一人の子どもが経験する光景や音声を与えられたAIモデルは、何ができるようになるのだろうか。
実験の結果、多くのことができるようになることがわかった。 AIモデルは単語と、その単語が示す物体を一致させられるようになったのだ。 ニューヨーク大学の計算認知科学者であり、この研究の論文の著者でもあるブレンデン・レイク助教授は、「子どもが一瞬で経験することの中には、単語学習に真に必要なデータが豊富に存在しています」と言う。2024年2月1日にサイエンス(Science)誌に掲載されたこの研究は、赤ちゃんの学習方法に関する洞察を提供するだけでなく、より良いAIモデルの開発につながる可能性がある。
研究チームはこの研究で、オーストラリアのアデレード近郊に住む子どもに装着したヘルメットカメラの映像61時間分を使用した。被験者となったサムという子どもは、生後6か月から2歳の誕生日を少し過ぎるまでの1年半、カメラを付けたり外したりしながら過ごした。カメラは、サムが起きている時間の約1%で見たり注目したりしたものを捉えていた。カメラが捉えたものは、サムの2匹の猫、両親、ベビーベッド、玩具、自宅、食事、その他さまざまなものだった。「このデータセットは本当に唯一無二でした」とレイク助教授は言う。「一人の子どもが接するものを知るための、かつてない最高の手がかりとなりました」。
レイク助教授たちは、AIモデルを訓練するため、60万本の映像と、撮影時に部屋にいたサムの両親や他の人々が話したフレーズ(合計3万7500回の「発話」)を組み合わせてモデルの訓練に使用した。言葉と対象物が一致する場合とそうでない場合があった。たとえば、ある映 …