Elon Musk’s OpenAI Unveils a Simpler Way for Machines to Learn

オープンAI、強化学習より効率的な「進化的戦略」AIを発表

オープンAIのイリア・スツカバー所長が、強化学習より効率的に学習できる手法として進化的戦略アルゴリズムを発表した。ロボットの操縦など、さまざまな状況にあわせて動作を切り替える必要があるタスクに適しており、汎用人工知能実現の目処さえ立つという。 by Tom Simonite2017.03.30

2013年、英国の人工知能スタートアップ企業ディープマインドが、アタリの昔懐かしいゲームで達人ゲーマーを打ち負かす学習能力を持つソフトウェアを公開し、コンピューター科学者の度肝を抜いた。ディープマインドは間もなくグーグルに買収された。以来、アタリのゲームを制覇した機械学習の手法「強化学習」は、AIとロボット工学分野で注目の的になっている。グーグルは強化学習でソフトウェアを開発し、昨年はチャンピオン棋士を破った。

最近、オープンAI（イーロン・マスクが共同創設者で、運営資金を提供している非営利の研究機関）は、強化学習より使いやすい選択肢を見つけたという。ゲーム等のタスクで、強化学習に匹敵する結果が出るという。 3月26日、MIT Technology Review主催の「Emtech Digital」カンファレンス（サンフランシスコ）で、オープンAIのイリア・スツカバー所長は、新手法によって機械学習研究は今よりスピードアップできる、と述べた。

「標準的ベンチマークで、現在の強化学習アルゴリズムに匹敵します。ここまでシンプルなアルゴリズムが現実に使い物になるのは驚きです」

スツカバー所長の主張では、単に画像を認識したり人間の話し言葉を文字起こししたりするよりも機械学習ソフトウェアが複雑なタスクをこなせるようになるには、ソフトウェアがコンピューター・ゲームをしたり、ロボットを操縦する新しい手法を見つけたりすることが重要だという。「コンピューター・システムに現実世界で複雑な行動を起こせるよう学習させられれば、AIを『知能』と呼んで差し支えないでしょう」とスツカバー所長はいう。

Machine-learning software from OpenAI figured out how to play classic Atari games. — アタリの古典的ゲームを制覇するオープンAIの機械学習ソフトウェア

スツカバー所長が率いる研究チームは「進化的戦略」という手法に基づいてソフトウェアを開発し、アタリのゲーム50本以上（『ポン（Pong）』や『センチピード（Centipede）』等）をプレイできるよう学習させた。進化戦略では、多数のCPUを簡単に並列処理で使える。おかげで、人工知能は1時間でゲームのやり方を覚えた。一方、グーグル・ディープマインドが昨年発表した強化学習システムでは丸1日かかってしまう。『サブマリン・コマンダー（Submarine Commander）』（アニメーション動画の真中）というゲームでは、浮上して空気を取り込むなど、潜水艦の操作を学習する能力で、進化的戦略と教科学習は同等だと実証した。

進化的戦略には、ロボット工学の標準的な能力検査でも強化学習と同様のメリットがあることが証明された。ロボットをシミュレーション環境で歩かせたところ、最新の強化学習システムで10時間かかる学習が、進化的戦略システムでは10分で済んだ、と研究チームはいう。

進化的戦略の手法そのものは何十年も前のアイデアの焼き直しだ。ソフトウェアは、さまざまな方法でタスクを試し、その中で最も効率の高いやり方を探って学習する。自然淘汰で生物が自分の置かれた環境に適合していく適者生存がおおまかなヒントになっている。

「誰もが大昔から知っていたアルゴリズムの方が、多くの研究者が考えるよりもよい結果を出したのです」とスツカバー所長はいう。

進化的戦略の手法で大躍進を遂げそうなAIの応用分野は具体的には何か、スツカバー所長は答えを控えた。長所と短所に関して、さらに研究する必要があるという。しかし、新手法である進化的戦略と強化学習を比べると、結果を出すまでのステップ数が多い、より複雑なタスクの学習に適していそうだ、という。

そのため、スツカバー所長は、進化的戦略が「汎用人工知能」（多種多様な複雑な状況に適応できるソフトウェア）を創り出すオープンAIの目標達成に役立つと確信している。

機械学習に関わるほとんどの研究者は、途方もない夢である汎用人工知能については関わらず、特定分野専用の、狭い範囲の課題で進歩を起こすことを研究テーマにしている。オープンAIの設立趣意書には、汎用人工知能を創ることが記されており、スツカバー所長によれば、機械学習の進歩の状況を考えれば、目標達成時期の目途が現在立ちつつあるという。

「今現在だと遠い先の話に感じますが、5年前に比べるとだいぶ近くなっています。進化的戦略アルゴリズムの開発に関わる人数と費やされる労力の量は極めて大きいです。非常に堅調に進歩しているといえます」

人気の記事ランキング

タグ	イリア・スツカバーエムテク・デジタル 2017（EmTech Digital 2017）オープンAI 機械学習
クレジット	Photograph by Jeremy Portje \| Animation courtesy of OpenAI

トムサイモナイト [Tom Simonite]米国版サンフランシスコ支局長: MIT Technology Reviewのサンフランシスコ支局長。アルゴリズムやインターネット、人間とコンピューターのインタラクションまで、ポテトチップスを頬ばりながら楽しんでいます。主に取材するのはシリコンバレー発の新しい考え方で、巨大なテック企業でもスタートアップでも大学の研究でも、どこで生まれたかは関係ありません。イギリスの小さな古い町生まれで、ケンブリッジ大学を卒業後、インペリアルカレッジロンドンを経て、ニュー・サイエンティスト誌でテクノロジーニュースの執筆と編集に5年間関わたった後、アメリカの西海岸にたどり着きました。