ウーバー、強化学習の難関ゲームを新アルゴリズムで攻略
従来のAIが苦手とする2つのビデオ・ゲームをウーバーAI研究所のメンバーが「攻略」した。人間を大きく上回るスコアを叩き出した新しいアルゴリズムは、ロボットなどの機械を現実世界で活用するときにも役立ちそうだ。 by Will Knight2018.12.19
新しいタイプの機械学習アルゴリズムが、AIにとって厄介な頭痛の種だった2つのレトロ・ビデオゲームを制覇した。
考えられる限りもっとも難しく、長い歴史を持つ戦略ゲームである囲碁において、AIアルゴリズムが世界トップ・レベルの人間のプレイヤーを負かしたことはご存知のとおりだ。だが、8ビット・コンピューター・ゲーム時代の2つの古典的な作品『モンテズマの復讐(Montezuma’s Revenge)』と『ピットフォール(Pitfall!)』はそれでもAI研究者を長らく悩ませてきた。
矛盾するように思うかもしれないが、これには訳がある。モンテズマの復讐もピットフォールも一見簡単そうに見えるものの、他のビデオ・ゲームの攻略法を学ぶのに適した技術「強化学習」がまったく通じないのだ。アルファベット(グーグル)のAI子会社であるディープマインド(DeepMind)は、強化学習によって古典的ビデオ・ゲームでプロ並にプレイする方法を学習できるアルゴリズムを開発したことで有名だ。強化学習アルゴリズムはほとんどのゲームとうまくかみ合う。ポジティブ・フィードバック、つまりスコアの上昇に呼応して自らの行動を微調整できるからだ。このアプローチの成功によってAIアルゴリズムは、現在は機械では不可能とされるあらゆることを自己学習できるのではないか? との希望がもたらされている。
モンテズマの復讐とピットフォールの難しさは、AIアルゴリズムが自ら微調整するためのよりどころとなる、報酬のきっかけがほとんど存在しないことにある。どちらのゲームも、主人公が敵や罠でいっぱいの荒造りな世界を探検するという、典型的なシナリオが含まれている。だが、あらゆるシーンにおいてゲームを進めるのに必要な多くの行動は、ずっと後になるまでスコアにはつながらない。通常の強化学習ではゲームの最初の部屋からうまく抜け出せず、まさにス …
- 人気の記事ランキング
-
- This company claims a battery breakthrough. Now they need to prove it. すべてのパラメーターが矛盾——「出来すぎ」全固体電池は本物か?
- OpenAI’s “compromise” with the Pentagon is what Anthropic feared アンソロピック排除の裏で進んだオープンAIの軍事契約、その代償は
- AI is rewiring how the world’s best Go players think 「アルファ碁」から10年、 AIは囲碁から 創造性を奪ったのか
- How uncrewed narco subs could transform the Colombian drug trade 中には誰もいなかった—— コカイン密輸組織が作った 「自律潜水ドローン」の脅威