人工知能(AI)は、創薬やロボット工学の分野にブレークスルーをもたらし、人間が機械やWebとやり取りする方法を根底から変えようとしている。唯一の問題は、AIがどのような仕組みで動いているのか、なぜこれほど効果的に機能するのか、正確に分かっていないことだ。それなりの見当はつけられているものの、複雑すぎてすみずみまで解明できずにいる。これは一大事だ。重大な欠陥が潜んでいる可能性を見落としたまま、医療などのきわめてセンシティブな分野にAIシステムを導入してしまう可能性があるからだ。
「機械論的解釈可能性(mechanistic interpretability)」について研究しているグーグル・ディープマインド(Google DeepMind)のチームは、AIの仕組みを解明する新たな方法を模索してきた。7月末には、AIが出力を生成する際に何が起きているのか、研究者の理解を助けるツール「ジェマ・スコープ(Gemma Scope)」をリリースした。AIモデル内部の事象の理解を深められれば、その出力を適切に制御できるようになり、将来的にはAIシステムの大きな改善につながると期待されている。
「モデルの内部を覗き込み、詐欺的な振る舞いをしていないか、確認できるようにしたいのです」。グーグル・ディープマインドで機械論的解釈可能性チームを率いるニール・ナンダは言う。「モデルの思考を読み取ることができれば、役に立つはずです」。
機械論的解釈可能性は「メック・インタープ(mech interp)」とも呼ばれ、ニューラル・ネットワークの実際の仕組みを理解することを目指す新しい研究分野だ。非常に大雑把に言えば、現時点では、大量のデータという形で入力をモデルに与え、訓練の終了時にモデルの重みの集合を取得する。モデルの重みとは、モデルがどのように判断するかを決めるパラメーターだ。入力からモデルの重み付けの間で何が起きているのかについては、ある程度の理解はある。 基本的にAIはデータの中からパターンを見つけ、そのパターンに基づいて結論を導き出す。だが、このパターンというのがきわめて複雑で、人間が解釈するには難しいことが多い。
教師が複雑な数学のテスト問題の回答を採点するところを想像してほしい。生徒(この場合はAI)は正しい答えを書いているが、その過程はくねくねとした線の集まりにしか見えないのだ。この例では、AIが常に正解を出すものと仮定しているが、現実は必ずしもそうではない。AIの生徒は、無関係なパターンを正解だと思い込んだだけかもしれない。たとえば、現在でもAIシステムは、9.11は9.8より大きいという結果を返してくることがある。機械論的解釈可能性の分野で開発されたさまざまな方法により、内部の動きが少しずつ分かってきて、そのくねくねとした線の集まりの意味の理解が始まっているのだ。
ナンダは、「機械論的解釈可能性の最重要目標は、これらのシステム内のアルゴリズムをリバースエンジニアリングすることです」と説明した。「たとえば『詩を書いて』とプロンプトを投げると、モデルは韻を踏んだ文章を返してきます。どのようなアルゴリズムで詩が出てきたのでしょうか。私たちはそれをぜひ理解したいと思っています」。
ディープマインドは、自社のAIモデルである「ジェマ(Gemma)」の特徴量、つまりデータの大きな概念を表すカテゴリーを見つけるため、「スパース・オートエンコーダー(sparse autoencoder)」と呼ばれるツールをモデルの各層で実行した。スパース・オートエンコーダーは、これらの層を拡大して細部を観察できる顕微鏡のようなものだ。たとえば、ジェマにチワワについて尋ねると、「犬」という特徴量が反応し、モデルが「犬」について知っている情報が活性化される。「スパース(希薄、まばら)」とされる理由は、使用するニューロンの数を制限し、より効率的で一般的なデータ表 …