ウーバー、強化学習の難関ゲームを新アルゴリズムで攻略
従来のAIが苦手とする2つのビデオ・ゲームをウーバーAI研究所のメンバーが「攻略」した。人間を大きく上回るスコアを叩き出した新しいアルゴリズムは、ロボットなどの機械を現実世界で活用するときにも役立ちそうだ。 by Will Knight2018.12.19
新しいタイプの機械学習アルゴリズムが、AIにとって厄介な頭痛の種だった2つのレトロ・ビデオゲームを制覇した。
考えられる限りもっとも難しく、長い歴史を持つ戦略ゲームである囲碁において、AIアルゴリズムが世界トップ・レベルの人間のプレイヤーを負かしたことはご存知のとおりだ。だが、8ビット・コンピューター・ゲーム時代の2つの古典的な作品『モンテズマの復讐(Montezuma’s Revenge)』と『ピットフォール(Pitfall!)』はそれでもAI研究者を長らく悩ませてきた。
矛盾するように思うかもしれないが、これには訳がある。モンテズマの復讐もピットフォールも一見簡単そうに見えるものの、他のビデオ・ゲームの攻略法を学ぶのに適した技術「強化学習」がまったく通じないのだ。アルファベット(グーグル)のAI子会社であるディープマインド(DeepMind)は、強化学習によって古典的ビデオ・ゲームでプロ並にプレイする方法を学習できるアルゴリズムを開発したことで有名だ。強化学習アルゴリズムはほとんどのゲームとうまくかみ合う。ポジティブ・フィードバック、つまりスコアの上昇に呼応して自らの行動を微調整できるからだ。このアプローチの成功によってAIアルゴリズムは、現在は機械では不可能とされるあらゆることを自己学習できるのではないか? との希望がもたらされている。
モンテズマの復讐とピットフォールの難しさは、AIアルゴリズムが自ら微調整するためのよりどころとなる、報酬のきっかけがほとんど存在しないことにある。どちらのゲームも、主人公が敵や罠でいっぱいの荒造りな世界を探検するという、典型的なシナリオが含まれている。だが、あらゆるシーンにおいてゲームを進めるのに必要な多くの行動は、ずっと後になるまでスコアにはつながらない。通常の強化学習ではゲームの最初の部屋からうまく抜け出せず、まさにス …
- 人気の記事ランキング
-
- AI crawler wars threaten to make the web more closed for everyone 失われるWebの多様性——AIクローラー戦争が始まった
- Promotion Innovators Under 35 Japan × CROSS U 好評につき第2弾!研究者のキャリアを考える無料イベント【3/14】
- From COBOL to chaos: Elon Musk, DOGE, and the Evil Housekeeper Problem 米「DOGE暴走」、政府システムの脆弱性浮き彫りに
- What a major battery fire means for the future of energy storage 米大規模バッテリー火災、高まる安全性への懸念
- A new Microsoft chip could lead to more stable quantum computers マイクロソフト、初の「トポロジカル量子チップ」 安定性に強み