2年前、オープンAI(OpenAI)の研究者ユーリ・ブルダとハリー・エドワーズは、言語モデルに基礎的な算数をさせるには何が必要かを調べていた。2人は、2つの数を足し合わせる例題をいくつ見せれば、モデルは与えられた2つの数を足し合わせられるようになるのかを知りたかった。最初はあまりうまくいかなかった。モデルは、一度見た足し算は記憶したが、初めて見る足し算はできなかった。
ある時ブルダとエドワーズはうっかりして、いくつかの実験を予定よりもずっと長時間(数時間ではなく数日)実行したままにしてしまった。彼らが予定していた終了時刻をはるかに超えて、モデルには何度も何度も足し算の例題が提示された。ようやく戻ってきたら実験はうまくいき、2人は驚いた。こうして訓練により言語モデルは2つの数字の足し算ができるようになったわけだが、それには誰も考えていなかったほど時間がかかったということだ。
何が起こっているのか気になったブルダとエドワーズは、研究仲間とチームを組んでこの現象を研究した。その結果、あるタスクができないように見えていたモデルが、まるで電球のスイッチが入るように、突然理解できるようになる場合があることがわかった。これは想定されていた深層学習の機能とは異なる働きだった。研究チームはこの振る舞いを「グロッキング(grokking)」と名付けた。
モントリオール大学およびアップル機械学習研究所(Apple Machine Learning Research)の人工知能(AI)研究者であるハティ・ジョウは言う(ジョウはこの研究には参加していない)。「これは実に興味深いことです。こうなってくると一体どの時点で、モデルが学習し終えた、と確信をもって言えるのでしょうか。だって、もしかしたら訓練の時間が足りなかっただけなのかもしれないのですから」。
モデルのこの奇妙な振る舞いは、さらに多くの研究者たちの想像力をかき立てた。英国ケンブリッジ大学のラウロ・ランゴスコは、「多くの人が各々の考えを持っていますが、本当のところ何が起こっているのかについてのコンセンサスは得られていないと思います」と話す。
グロッキングは、AI研究者が頭を悩ますいくつかの奇妙な現象のひとつにすぎない。最大規模のモデル、特に大規模言語モデルは、教科書的な数学ではありえない振る舞いをするようだ。このことは、今日のAIブームを支える基盤テクノロジーである深層学習(deep learning)に関する驚くべき事実を浮き彫りにしている。破竹の勢いの成功にもかかわらず、誰もそれがどのように、あるいはなぜ機能するのか正確には知らないのである。
カリフォルニア大学サンディエゴ校のコンピューター科学者であるミハイル・ベルキン教授は言う。「もちろん、私たちが何も知らないというわけではありません。でも私たちの理論的分析は、これらのモデルができる事柄から大きく外れているのです。例えば、これらのモデルはなぜ言語を学習できるのか。これは本当に不思議なことだと思います」。
現在、最大規模のモデルは非常に複雑化している。研究者たちはまるでそれ自体が奇妙な自然現象であるかのように研究し、実験をして結果を説明しようとしている。その過程で観察された事柄の多くは、予測モデルの振る舞いを非常にうまく説明してきた一連の古典的統計学とは相容れないものであった。
だから何なんだ、と言われるかもしれない。グーグル・ディープマインド(Google Deepmind)は、ここ数週間で同社の生成モデルをほぼすべての消費者向けアプリで展開した。オープンAIは、テキストから動画への驚異的な変換モデル「Sora(ソラ)」を新たに発表して人々を驚かせた。そして、世界中の企業が先を争って自社のニーズへの対応にAIを導入しようとしている。このテクノロジーはうまく機能している。それで十分なのではないか?
しかし、深層学習がなぜこれほどうまく機能するのか、その理由の解明はただの興味深い科学的パズルではない。それはまた、次世代のAIテクノロジーを解き明かす鍵であり、同時にその手ごわいリスクをコントロールする鍵でもあるのだ。
「刺激的な時代です」。ハーバード大学のコンピューター科学者で、オープンAIのスーパーアライメント・チームに1年間出向中のボアズ・バラク教授は言う。「この分野の多くの人はしばしば、この状況を20世紀初頭の物理学にたとえます。完全には理解しきれない実験結果がたくさんあります。実験をすると、しばしば驚くような結果が出るのです」。
古いコード、新しい手口
驚きのほとんどは、モデルが、やり方を教わったことのないことを学習する方法に関係している。「汎化」として知られるこの学習方法は、機械学習における最も基本的な考え方のひとつだが、それはまた最大の謎でもある。顔の検出、文章の翻訳、歩行者の回避などのタスクを、モデルは特定の例を使った訓練により学習する。しかし、モデルは汎化することで、初めての例でもそのタスクを実行できるようになる。どういうわけか、モデルは見たことのあるパターンを記憶するだけでなく、そのパターンを新しいケースに適用するためのルールを考え出すのだ。そして時には、グロッキングのように、予期せぬときに汎化が起こる。
特にオープンAIの「GPT-4」やグーグル・ディープマインドの「Gemini(ジェミニ)」などの大規模言語モデルは、驚くべき汎化能力を持っている。「モデルが英語で書かれた数学の問題を学習し、次に英語で書かれた新しい数学の問題へと汎化できることに不思議はありません。しかし英語の数学の問題を学習したモデルは、次にフランス語の文献を見て、そこから汎化によりフランス語の数学の問題を解けるようになるのです。これは統計で語れる範囲を超えるものです」(バラク教授)。
数年前にAIの勉強を始めたジョウは、教師たちがAIが学習する方法には焦点を当てるが、学習する理由には重きを置かないことに驚いた。「モデルをこんなふうに訓練したら、結果はこうなります、というような感じでした」と彼女は言う。「でも、モデルにあるプロセスを経験させたら、なぜこんなにすばらしいことができるようになるのか、その理由はよくわかりませんでした」。彼女はもっと知りたかったが、これだ、という答えはないと言われた。「私は、科学者というのは自分がしていることをきちんとわかってやっているものだとばかり思っていました。例えば、理論を得て、次にモデルを作るとか。まったくそうではありませんでした」。
…