大規模言語モデルは内部で
何をやっているのか？
覗いて分かった奇妙な回路

Claude（クロード）の開発元であるアンソロピック（Anthropic）は、大規模言語モデルがどのように返答を作り出しているのか、その動作の一端を解明した。その結果は人間の直感に反する、意外なものだった。 by Will Douglas Heaven2025.04.11

この記事の3つのポイント

アンソロピックは「回路追跡」技術を使い、LLMの内部動作を可視化した
LLMは独自の計算法を使い、詩の結末を先に決め、言語の違いを超えて思考する
この研究はAIの「ブラックボックス問題」解決への重要な一歩となる

summarized by Claude 3

人工知能（AI）企業のアンソロピック（Anthropic）は、大規模言語モデル（LLM）の内部構造を可視化し、モデルが応答を生成する際に実際にどのような処理を実行しているのかを観察する手法を開発した。これにより、このテクノロジーの仕組みに関する重要な新しい知見が明らかになった。結論は？ LLMは私たちが想像していた以上に不可解な存在である、ということだ。

同社の研究員ジョシュア・バトソンによると、研究チームは、LLMが文章を補完したり、簡単な数学の問題を解いたり、ハルシネーション（幻覚）を抑制したりする際に用いていると思われる、いくつかの直感に反する手法に驚かされたという。

LLMの仕組みが謎に包まれているのは周知の事実だ。これほどまでに仕組みが理解されていない大衆向けテクノロジーは、そうそうないだろう。その仕組みを解明することは、科学界においても最大の未解決課題の一つとなっている。

とはいえ、それは単なる知的好奇心だけの問題ではない。LLMの仕組みを解明できれば、その弱点が明らかになり、なぜ事実を捏造したり、脱獄（ジェイルブレイク）されてしまったりするのかが理解できるようになる。また、LLMに何ができて何ができないのかという、長年の論争にも決着をつける助けとなるだろう。さらに、LLMがどれほど信頼できるものなのか（あるいは信頼できないのか）を見極める上でも重要だ。

バトソン研究員らのチームは、3月27日に発表した2本の報告書でこの研究成果を紹介している。1本目は、アンソロピックが用いた「回路追跡（circuit tracing）」と呼ばれる手法について説明したものだ。これは、LLMの意思決定プロセスをステップごとに追跡できる技術である。アンソロピックはこれを用いて、同社のLLM「Claude 3.5 Haiku（クロード3.5ハイク）」がさまざまなタスクを実行する様子を観察した。2本目の報告書『On the Biology of a Large Language Model：大規模言語モデルの生態について』では、10の具体的なタスクに焦点を当て、そこで得られた発見を詳しく解説している。

「非常に興味深い研究です」と語るのは、今回の研究には関与していないが、米国ブラウン大学でLLMを研究する博士課程生のジャック・メルーロだ。「手法という観点から見ても、大きな前進だと思います」。

回路追跡という手法自体は目新しいものではない。実際、メルーロらのチームは昨年、オープンAI（OpenAI）の旧型モデル「GPT-2」の特定の回路を解析している。ただし、今回アンソロピックが解析したのは、より大規模かつ複雑なモデルであり、複数のタスクを同時に処理している最中における、さまざまな種類の回路だった。「アンソロピックは、こうした大規模なスケールで問題に取り組む能力に非常に優れています」とメルーロは評価する。

イスラエルのテルアビブ大学でLLMを研究し、現在はサンフランシスコに拠点を置くAI企業デカルト（Decart）で研究員として働くイーデン・ビランもこの見解に同意する。「Claudeのような先進的な大規模モデルで回路を特定するのは、技術的に決して簡単な作業ではありません。今回の研究は、回路がスケールアップ可能であり、言語モデルを解釈する上で有望な手段であることを示しています」。

回路とは、モデル内の異なる部分（コンポーネント）を連結する構造である。アンソロピックは昨年、現実世界の概念に対応する複数のコンポーネントをClaudeの内部から特定した。その中には「マイケル・ジョーダン」や「緑」といった具体的な概念もあれば、「個人間の対立」といった抽象的なものも含まれていた。中には、ゴールデン・ゲート・ブリッジを象徴するように見えるコンポーネントもあり、研究者がこの内部コンポーネントを調整すると、Claudeが自らをLLMではなく、橋（ゴールデン・ゲート・ブリッジ）そのものになりきって振る舞うようになったという。興味深い挙動である。

今回の研究は、昨年の成果や、グーグル・ディープマインドなど他の研究者たちの成果を土台として、モデル内のコンポーネント同士のつながりの一部を明らかにしている。これらのコンポーネントが鎖のように連なり、Claudeへの入力と言語的出力の間をつなぐ経路となっているのだ。

「今回の結果は、まさに氷山の一角と言えるでしょう。おそらく、実際に起きていることの数パーセントしか見えていないのかもしれません」とバトソン研究員は語る。「それでも、驚くべき構造の存在を十分に確認することができます」。

成長するLLM

アンソロピックなどに所属する研究者たちは、大規模言語モデルを人間が作ったソフトウェアというより、自然現象に近いものとして研究している。というのも、LLMはプログラムされたものではなく、訓練されたものだからだ。

「LLMは、ほとんど有機的に成長します」とバトソン研究員は言う。「最初は完全にランダムな状態から始まり、膨大なデータで訓練を重ねることで、意味不明な出力しかできなかったものが、複数の言語を話したり、ソフト …

こちらは有料会員限定の記事です。 有料会員になると制限なしにご利用いただけます。

有料会員にはメリットがいっぱい！

毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
重要テーマが押さえられる。
各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。

人気の記事ランキング

大規模言語モデルは内部で 何をやっているのか？ 覗いて分かった奇妙な回路

大規模言語モデルは内部で
何をやっているのか？
覗いて分かった奇妙な回路