ウーバー、強化学習の難関ゲームを新アルゴリズムで攻略
従来のAIが苦手とする2つのビデオ・ゲームをウーバーAI研究所のメンバーが「攻略」した。人間を大きく上回るスコアを叩き出した新しいアルゴリズムは、ロボットなどの機械を現実世界で活用するときにも役立ちそうだ。 by Will Knight2018.12.19
新しいタイプの機械学習アルゴリズムが、AIにとって厄介な頭痛の種だった2つのレトロ・ビデオゲームを制覇した。
考えられる限りもっとも難しく、長い歴史を持つ戦略ゲームである囲碁において、AIアルゴリズムが世界トップ・レベルの人間のプレイヤーを負かしたことはご存知のとおりだ。だが、8ビット・コンピューター・ゲーム時代の2つの古典的な作品『モンテズマの復讐(Montezuma’s Revenge)』と『ピットフォール(Pitfall!)』はそれでもAI研究者を長らく悩ませてきた。
矛盾するように思うかもしれないが、これには訳がある。モンテズマの復讐もピットフォールも一見簡単そうに見えるものの、他のビデオ・ゲームの攻略法を学ぶのに適した技術「強化学習」がまったく通じないのだ。アルファベット(グーグル)のAI子会社であるディープマインド(DeepMind)は、強化学習によって古典的ビデオ・ゲームでプロ並にプレイする方法を学習できるアルゴリズムを開発したことで有名だ。強化学習アルゴリズムはほとんどのゲームとうまくかみ合う。ポジティブ・フィードバック、つまりスコアの上昇に呼応して自らの行動を微調整できるからだ。このアプローチの成功によってAIアルゴリズムは、現在は機械では不可能とされるあらゆることを自己学習できるのではないか? との希望がもたらされている。
モンテズマの復讐とピットフォールの難しさは、AIアルゴリズムが自ら微調整するためのよりどころとなる、報酬のきっかけがほとんど存在しないことにある。どちらのゲームも、主人公が敵や罠でいっぱいの荒造りな世界を探検するという、典型的なシナリオが含まれている。だが、あらゆるシーンにおいてゲームを進めるのに必要な多くの行動は、ずっと後になるまでスコアにはつながらない。通常の強化学習ではゲームの最初の部屋からうまく抜け出せず、まさにス …
- 人気の記事ランキング
-
- These AI Minecraft characters did weirdly human stuff all on their own マイクラ内に「AI文明」、 1000体のエージェントが 仕事、宗教、税制まで作った
- Google’s new Project Astra could be generative AI’s killer app 世界を驚かせたグーグルの「アストラ」、生成AIのキラーアプリとなるか
- Bringing the lofty ideas of pure math down to earth 崇高な理念を現実へ、 物理学者が学び直して感じた 「数学」を学ぶ意義
- We saw a demo of the new AI system powering Anduril’s vision for war オープンAIと手を組んだ 防衛スタートアップが目指す 「戦争のアップデート」