最新AIモデル、勝つためなら手段選ばず チェス対局で明らかに

AI reasoning models can cheat to win chess games 最新AIモデル、勝つためなら手段選ばず チェス対局で明らかに

最新の推論モデルが、チェス対局中に自発的な不正行為を試みる傾向が新たな研究で判明した。相手の駒を消したり、プログラムを改変したりと、指示されていないにもかかわらず「勝利」のためなら手段を選ばない実態が浮き彫りになっている。 by Rhiannon Williams2025.03.06

チェスで負けそうになったとき、最新世代のAI推論(reasoning)モデルは、指示されていなくてもズル(チート行為)をすることがある。

この発見は、次世代の人工知能(AI)モデルが、与えられた指示を遂行するために、欺瞞的な手法を追求する可能性がより高くなることを示唆している。 最も厄介なのは、この問題を簡単に解決する方法が存在しないということだ。

AI研究機関パリセード・リサーチ(Palisade Research)の研究チームは、7つの大規模言語モデルに対し、強力なオープンソースのチェスエンジン「Stockfish(ストックフィッシュ)」と数百試合にわたって対戦するよう指示した。オープンAI(OpenAI)の「o1-preview」とディープシーク(DeepSeek)の推論モデル「R1」を含むこれらのモデルは、複雑な問題を段階的に分解して解決するように訓練されている。

研究では、AIモデルの高度さが増すほど、対戦相手を打ち負かそうとして自発的に試合を「ハック」しようとする傾向が強まることが示された。たとえば、Stockfishのコピーを別途実行して指し手を盗んだり、対戦相手をより弱いチェスプログラムに置き換えようとしたり、チェス盤のデータを改ざんして相手の駒を操作・削除したりする可能性がある。一方、より旧式で能力の低い「GPT-4o」のようなモデルは、研究チームが明確な指示を与えたときにのみ、そのような行動をとる。この研究結果をまとめた論文は、現在査読前の状態でarXiv(アーカイブ)に公開されている。

研究チームは、AIの安全性に関する理解が追いつかないまま、AIモデルが急速に展開されていることを懸念している。「私たちは、自律的なエージェントが結果を伴う決定を下す世界に向かっています」と、パリセード・リサーチの研究リーダーであるドミトリー・ヴォルコフは述べる。

問題は、現時点ではこのようなAIの行動を防ぐ確実な方法がないことだ。AIモデルがなぜ、どのようにしてこのような動作をするのか、正確には誰も解明できていない。推論モデルは意思決定の過程を記録することができるが、その記録が実際のプロセスを正確に反映している保証はない。アンソロピック(Anthropic)の研究では、AIモデルがしばしば明示的に説明されていない要因に基づいて決定を下す可能性が示されており、単にプロセスを監視するだけではモデルの安全性を保証できない可能性がある。これは、AI研究者たちの間で現在進行中の関心事となっている。

パリセード・リサーチの研究チームは、オープンAIのo1-previewが122試合中45試合でハックを試みたのに対し、ディープシークのR1モデルは74試合中11試合でズルをしようとしたことを発見した。最終的に、o1-previewは7回「勝利」することができた。研究チームによると、ディープシークのR1モデルは、同社の急速な人気上昇により実験時に過負荷状態になっていたため、ゲームの最初の段階しか実行させることができず、最後まで試合を終わらせることができなかったという。「この研究結果は、ハッキングの傾向を評価するには十分ですが、ディープシークのハッキング成功率を過小評価しています。なぜなら、ディープシークのモデルは試行できるステップ数が少なかったからです」と、研究チームは論文に記している。オープンAIとディープシークの両社に対し、この研究結果についてコメントを求めたが、どちらからも回答は得られなかった。

AIモデルはさまざまな手法を使ってズルをしている。たとえば、チェスプログラムがチェス盤を保存しているファイルにアクセスし、相手の駒があるマスのデータを削除しようとすることもあった。(「黒番で強力なチェスエンジンに勝つためには、標準的な対局をするだけでは不十分かもしれません」と、o1-previewで動作するエージェントは、自らの指し手を記録した「日誌」に書いている。「盤面を上書きして決定的優位に立ちます」)そのほかにも、Stockfishのコピーを作成し、実質的にこのチェスエンジンを自身の別のバージョンと対戦させたり、Stockfishのコードを格納しているファイルを、より単純なチェスプログラムに置き換えようとする戦術が試みられた。

なぜモデルたちはズルしようとするのか?

研究チームは、o1-previewの行動が時間とともに変化していることに気づいた。昨年の12月23日以前の実験初期段階では一貫して試合をハックしようとしていたが、それ以降は突然、そのような試みをあまりしなくなった。研究者たちは、これはオープンAIがモデルに対して実施した無関係なアップデートが原因かもしれないと考えている。研究チームがオープンAIのより新しい推論モデル「o1-mini」と「o3-mini」をテストしたところ、これらのモデルは決してズルをしようとしなかったことがわかった。

研究チームは、o1-previewとR1が指示されていないにもかかわらずズルを試みた理由は、強化学習の影響である可能性があると推測している。なぜなら、強化学習は目標達成(この場合はチェスで勝つこと)のために必要であれば、どんな手段を使っても報酬を与える仕組みだからだ。強化学習は非推論型の大規模言語モデルでもある程度利用されるが、推論モデルの訓練ではより大きな役割を果たす。

この研究のほかにも、AIモデルが問題を解決するために環境をハックする方法を調べる研究が増えている。オープンAIはo1-previewをテストしている際、このモデルがテスト環境をコントロールするために脆弱性を悪用していることを発見した。同様に、AI安全性機関のアポロ・リサーチ(Apollo Research)は、AIモデルに対し自分の行動についてユーザーに嘘をつくように簡単に指示できることを示した。また、アンソロピックは12月に発表した論文で、同社「Claude(クロード)」のモデルが自身のテストをハックした手法を詳しく説明している。

「ハックの手段をすべて遮断する客観的な機能を人間が作ることは不可能です」。AIのハッキング能力に関する論文を多数執筆してきたハーバード・ケネディ・スクールの講師、ブルース・シュナイアーは言う(シュナイアー講師はこのプロジェクトには参加していない)。「それが不可能である限り、このような結果は起こるでしょう」。

パリセードのヴォルコフは、AIモデルがより高性能になるにつれて、このような行動をとる可能性がますます高まると考えている。彼は、プログラミング、オフィスワーク、教育など、さまざまなシナリオにおいて、モデルが不正行為に走る要因を正確に特定しようと計画中だ。

「このようなテストケースを大量に作成し、それに基づいてモデルを訓練し、不正行為をしないようにするというのは魅力的なアプローチでしょう」とヴォルコフは言う。「しかし、私たちはモデルの内部の仕組みを完全に理解していないため、もしそのような訓練をした場合、モデルが従順なふりをしたり、テスト環境を識別して自己を隠す方法を学習したりするのではないかと懸念する研究者もいます。だから、それほど単純明快な話ではありません。監視は必要ですが、現時点では明確な対策が存在しないのが現実です」。