人工知能研究の大きな成果だ。カナダとチェコ共和国の研究者が開発したポーカー・ボットが2人制無制限式テキサス・ホールデム(ポーカーの一種)でプロのプレイヤー数人を打ち負かした。
おそらくもっとも興味深いのは、開発に携わった学者が近似法を「直感力」になぞらえ、プログラムが近似法(この記事では全数を計算せずに概算する手法を指す)によって人間の対戦相手に打ち勝ったと述べていることだろう。
ゲーム理論とAIを専門とするミシガン大学のマイケル・ウェルマン教授は「もし本当ならば、これは実際、ゲームをプレイするAIの画期的な進歩といえます」という。「ひとつは、多くの関心を集めるゲームで偉業(ポーカーのプロに勝利する)が達成したことです。もうひとつは、不完全情報ゲームへの大変興味深い手法につながる、いくつかの新しいアイデアがもたらされます」
今週ピッツバーグのカジノで開催予定のトーナメント戦では、世界トップクラスのポーカー・プレイヤー数名がカーネギーメロン大学(CMU)で開発されたプログラムを相手にテキサス・ホールデムで勝負する。コンピューター科学の専門家で、この研究を率いるCMUのツォーマス・サンドホルム教授によると、大会に参加するプレイヤーはアルバータ大学の研究グループがプログラムをテストした際の対戦相手よりかなり手強く、20日以上にわたり12万手がプレイされることになるため、対戦結果には大きな統計学的意義があるという。長い間、ポーカーはコンピューターがプレイするにはあまりにも複雑で曖昧すぎると考えられてきたが、今回のトーナメントでAIが実際にポーカーを会得したと納得することになるかもしれない。
DeepStack(すでに数名のプロ・プレイヤーに勝利したポーカーのソフトウェア)は、コンピューター科学を専門とするアルバータ大学のマイケル・ボーリング教授が率いる研究チームによって開発された。研究チームにはアルバータ大学の他、チェコ共和国のプラハ・カレル大学とチェコ工科大学の研究者も参加している。オンラインで公開された研究論文はまだ査読が済んでいないが、研究者は論文でDeepStackは数人のプレイヤーを相手にポーカーを約4万5000回対戦し、やすやすと相手を打ち負かしたという。
ポーカーは現実世界での駆け引きがある点で、人間とAIが対戦する他の多くのゲームとは根本的に異なる。ポーカーのプレイヤーには、対戦相手の手札が見えない。アルファベット(グーグル)の子会社ディープマインド(本社イギリス)の研究者は昨年、世界トップレベルの囲碁の棋士を打ち負かすプログラムを開発し、大きな話題を呼んだ(“Google’s AI Masters the Game of Go a Decade Earlier Than Expected”参照)が、チェッカー(チェス盤を使ったゲーム)やチェス、囲碁とは対照的に、ポーカーはゲームに関わる全ての情報が判明していないのだ。
2人制無制限式のテキサス・ホールデムは、2人のプレイヤーが掛け金の制限なしで競い合うゲームだ。この形式は特に複雑で、テキサス・ホールデムでゲームが辿りうる道筋は、対戦1回につき1060(10の後に0が160個つく)通りもあり、機械が上級レベルでプレイするにはあまりに難しすぎる、と長年いわれてきた。。
DeepStackは自分自身と対戦してポーカーを学習した。1戦終えるごとに戦略を見直し、改良することで、より最適な手法が編み出される。2人制無制限式ポーカーはかなり複雑なので、通常であればこの手法はもっと制限の多い形式のゲーム向きだ。DeepStackの開発チームは、ポーカーの状況データを深層学習のアルゴリズムで処理することで近似法を高速化する手法を改良し、2人制無制限式ポーカーの複雑さに対処した。
ミシガン大学のウェルマン教授は「このように複雑なゲームに挑戦する場合の新規性は、ゲームが辿りうる大まかな道筋全体に対処するより、直面する状況それぞれに合わせて効率的に計算し、採るべき行動を割り出さなくてはいけないことです」という。
研究者はDeepStackの近似法を、人間のプレイヤーが持つ直感力になぞらえる。「この推測能力はDeepStackの直感と考えられるだろう」と論文で述べている。
ポーカー・プレイヤーの力量は、多くのゲームを通じて、獲得金額と掛け金を比較することで計測できる。DeepStackはプロ・プレイヤーの勝率として妥当と考えられる数値の約9倍相当の勝率だった。
2015年、ボーリング教授とアルバータ大学のチームは、より制限の多い形式の2人制ホールデムを完璧にプレイできるポーカー・ボットを開発し、このゲームを「解明」してしまった。
ピッツバーグのトーナメント戦に参加するポーカー・ボット「リブラタス(Libratus)」は、サンドホルム教授と大学院生のノーム・ブラウン研究員が開発した。2人はリブラタスがポーカーに対しどのような手法を使うかの詳細をまだ明かしてはいないが、ブラウン研究員によれば、プログラムが取り組むのは基本的に、以前可能だったよりも早い段階でゲームを「解く」(あるいは、すべての可能なシナリオを探り出す)ことだという。 リブラタスはピッツバーグ・スーパーコンピューティング・センター(CMUとピッツバーグ大学の共同運営施設)にある非常に高性能なハードウェアで実行される。