メタ(Meta)は、ボードゲーム「ディプロマシー」のオンライン版で、人間に勝てる人工知能(AI)を開発した。ディプロマシーは、7人のプレイヤーが地図上で駒を動かしてヨーロッパの支配権を競い合う人気戦略ゲームだ。チェスや囲碁などこれまでAIがマスターしてきたボードゲームとは異なり、ディプロマシーでは、プレイヤー同士が話し合って、同盟を結んだり戦術を交渉したり、相手のはったりを見破ったりすることが求められる。
「キケロ(Cicero)」と呼ばれるこのAIは、40回のオンラインゲームで、82人の人間のプレイヤー(彼らはボットと対戦していることに気づかなかった)を相手に上位10%にランクインした。21人が参加したある8回戦のトーナメントでは、キケロが優勝した。メタは、その成果をまとめた論文をサイエンス誌に発表している。
ディプロマシーのプレイ方法を学ぶことは、いくつかの理由で難しい。単に複数プレイヤーが同時に行動するだけでなく、各ターンの前に短い交渉時間が設けられ、プレイヤーは2人で話し合って同盟を組んだり、ライバルを追い詰めるために結託したりする。この交渉後、プレイヤーはどの駒を動かすか、そして約束を守るか反故にするかを決定する。
キケロは、ゲームの各時点で、ボード上の状態や他のプレイヤーとのこれまでの交渉に基づいて彼らがどのような行動に出そうかをモデル化する。そして、プレイヤー同士が相互利益のためにどのように協力できるかを考え、その目的を達成するためのメッセージを作成する。
キケロを構築するために、メタは2つの異なるタイプのAIを結合した。つまり、採るべき手を判断する強化学習モデルと、他のプレイヤーと交渉する大規模言語モデルである。
キケロは完全ではない。依然としてエラーを含むメッセージを発信することがあった。ある時は自らの計画と矛盾し、ある時は戦略的な誤りを犯した。しかし、人間は他のプレイヤーよりもキケロとの提携を選ぶことが多いとメタは主張する。
そしてそれこそが重要なのだ。チェスや囲碁のようなゲームでは勝者と敗者が決まって終わるが、現実世界の問題は通常、そのような分かりやすい結果を持たないからだ。交換条件や次善策を見つけることのほうが、勝つことよりも価値がある場合が多い。メタは、キケロについて、妥協を必要とするさまざまな複雑な問題の解決に役立つAIへの一歩になると主張している。例えば、混雑した交通機関を回避するルートを作成することや、契約の交渉などだ。