KADOKAWA Technology Review
×
始めるならこの春から!年間サブスク20%オフのお得な【春割】実施中
大規模言語モデルは内部で
何をやっているのか?
覗いて分かった奇妙な回路
Stephanie Arnett/MIT Technology Review | rawpixel, Adobe Stock
人工知能(AI) Insider Online限定
Anthropic can now track the bizarre inner workings of a large language model

大規模言語モデルは内部で
何をやっているのか?
覗いて分かった奇妙な回路

Claude(クロード)の開発元であるアンソロピック(Anthropic)は、大規模言語モデルがどのように返答を作り出しているのか、その動作の一端を解明した。その結果は人間の直感に反する、意外なものだった。 by Will Douglas Heaven2025.04.11

この記事の3つのポイント
  1. アンソロピックは「回路追跡」技術を使い、LLMの内部動作を可視化した
  2. LLMは独自の計算法を使い、詩の結末を先に決め、言語の違いを超えて思考する
  3. この研究はAIの「ブラックボックス問題」解決への重要な一歩となる
summarized by Claude 3

人工知能(AI)企業のアンソロピック(Anthropic)は、大規模言語モデル(LLM)の内部構造を可視化し、モデルが応答を生成する際に実際にどのような処理を実行しているのかを観察する手法を開発した。これにより、このテクノロジーの仕組みに関する重要な新しい知見が明らかになった。結論は? LLMは私たちが想像していた以上に不可解な存在である、ということだ。

同社の研究員ジョシュア・バトソンによると、研究チームは、LLMが文章を補完したり、簡単な数学の問題を解いたり、ハルシネーション(幻覚)を抑制したりする際に用いていると思われる、いくつかの直感に反する手法に驚かされたという。

LLMの仕組みが謎に包まれているのは周知の事実だ。これほどまでに仕組みが理解されていない大衆向けテクノロジーは、そうそうないだろう。その仕組みを解明することは、科学界においても最大の未解決課題の一つとなっている。

とはいえ、それは単なる知的好奇心だけの問題ではない。LLMの仕組みを解明できれば、その弱点が明らかになり、なぜ事実を捏造したり、脱獄(ジェイルブレイク)されてしまったりするのかが理解できるようになる。また、LLMに何ができて何ができないのかという、長年の論争にも決着をつける助けとなるだろう。さらに、LLMがどれほど信頼できるものなのか(あるいは信頼できないのか)を見極める上でも重要だ。

バトソン研究員らのチームは、3月27日に発表した2本の報告書でこの研究成果を紹介している。1本目は、アンソロピックが用いた「回路追跡(circuit tracing)」と呼ばれる手法について説明したものだ。これは、LLMの意思決定プロセスをステップごとに追跡できる技術である。アンソロピックはこれを用いて、同社のLLM「Claude 3.5 Haiku(クロード3.5ハイク)」がさまざまなタスクを実行する様子を観察した。2本目の報告書『On the Biology of a Large Language Model:大規模言語モデルの生態について』では、10の具体的なタスクに焦点を当て、そこで得られた発見を詳しく解説している。

「非常に興味深い研究です」と語るのは、今回の研究には関与していないが、米国ブラウン大学でLLMを研究する博士課程生のジャック・メルーロだ。「手法という観点から見ても、大きな前進だと思います」。

回路追跡という手法自体は目新しいものではない。実際、メルーロらのチームは昨年、オープンAI(OpenAI)の旧型モデル「GPT-2」の特定の回路を解析している。ただし、今回アンソロピックが解析したのは、より大規模かつ複雑なモデルであり、複数のタスクを同時に処理している最中における、さまざまな種類の回路だった。「アンソロピックは、こうした大規模なスケールで問題に取り組む能力に非常に優れています」とメルーロは評価する。

イスラエルのテルアビブ大学でLLMを研究し、現在はサンフランシスコに拠点を置くAI企業デカルト(Decart)で研究員として働くイーデン・ビランもこの見解に同意する。「Claudeのような先進的な大規模モデルで回路を特定するのは、技術的に決して簡単な作業ではありません。今回の研究は、回路がスケールアップ可能であり、言語モデルを解釈する上で有望な手段であることを示しています」。

回路とは、モデル内の異なる部分(コンポーネント)を連結する構造である。アンソロピックは昨年、現実世界の概念に対応する複数のコンポーネントをClaudeの内部から特定した。その中には「マイケル・ジョーダン」や「緑」といった具体的な概念もあれば、「個人間の対立」といった抽象的なものも含まれていた。中には、ゴールデン・ゲート・ブリッジを象徴するように見えるコンポーネントもあり、研究者がこの内部コンポーネントを調整すると、Claudeが自らをLLMではなく、橋(ゴールデン・ゲート・ブリッジ)そのものになりきって振る舞うようになったという。興味深い挙動である。

今回の研究は、昨年の成果や、グーグル・ディープマインドなど他の研究者たちの成果を土台として、モデル内のコンポーネント同士のつながりの一部を明らかにしている。これらのコンポーネントが鎖のように連なり、Claudeへの入力と言語的出力の間をつなぐ経路となっているのだ。

「今回の結果は、まさに氷山の一角と言えるでしょう。おそらく、実際に起きていることの数パーセントしか見えていないのかもしれません」とバトソン研究員は語る。「それでも、驚くべき構造の存在を十分に確認することができます」。

成長するLLM

アンソロピックなどに所属する研究者たちは、大規模言語モデルを人間が作ったソフトウェアというより、自然現象に近いものとして研究している。というのも、LLMはプログラムされたものではなく、訓練されたものだからだ。

「LLMは、ほとんど有機的に成長します」とバトソン研究員は言う。「最初は完全にランダムな状態から始まり、膨大なデータで訓練を重ねることで、意味不明な出力しかできなかったものが、複数の言語を話したり、ソフト …

こちらは有料会員限定の記事です。
有料会員になると制限なしにご利用いただけます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
【春割】実施中!年間購読料20%オフ!
人気の記事ランキング
  1. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
  2. Promotion MITTR Emerging Technology Nite #32 Plus 中国AIをテーマに、MITTR「生成AI革命4」開催のご案内
  3. This Texas chemical plant could get its own nuclear reactors 化学工場に小型原子炉、ダウ・ケミカルらが初の敷地内設置を申請
  4. How 3D printing could make better cooling systems 3Dプリントで製造の制約を解放、高効率な熱交換器が設計可能に
▼Promotion
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る