The Reinforcement Learning Pioneer: An Exclusive Interview with Professor Peter Stone

強化学習の権威ピーター・ストーン：AIの限界は誰にも分からない

強化学習、マルチエージェント・システム、ロボット工学分野の専門家として知られる、テキサス大学オースティン校のピーター・ストーン（Peter Stone）教授は、現在の人工知能（AI）とそれを取り巻く状況をどのように見ているのか。AI研究者の清水亮氏がインタビューした。 by Ryo Shimizu2023.06.09

トランスフォーマー（Transformer）と強化学習を組み合わせたチャットGPT（ChatGPT）が話題を集めている。強化学習という分野は主にロボット制御のために発達し、古くはロボットによるサッカー大会、最近では自動運転などに応用されている。

強化学習そのものはディープラーニング（深層学習）とそこまで密接な関係ではない。ディープラーニングの中心的な価値は多層パーセプトロンを深層化することで、それまで認識できなかったような高度な概念を認識させることにある。トランスフォーマーは近年急速に発展を遂げてきた多層パーセプトロンの最新型だが、多層パーセプトロンが決定的に印象的な成果を残すのは、常に強化学習と組み合わさった時だ。

例えば、グーグル傘下のディープマインド（DeepMind）が2015年に発表し、アタリ（Atari）のブロック崩しを自動的に学習して攻略するDQN（Deep Q Network）は、当時目新しかった畳み込みニューラルネットワーク（多層パーセプトロンの一種）と古典的な強化学習アルゴリズムであるQネットワークの組み合わせだし、2015年に同じくディープマインドが初めて人間のプロ棋士に勝利した囲碁AIのアルファ碁（AlphaGo）も、畳み込みニューラルネットワークとモンテカルロ木探索を強化学習によって組み合わせたものだった。

ひとくちに「AI」と言っても、論理的構造を再現する従来からの記号処理系のAI（四色問題の証明などに用いられた。プロログ＝Prologなどの言語で記述する）と、記号処理を自然言語処理に応用し、文章構造を解析するもの、人間が特徴量を設計し、統計的に分析するものなどがある。ディープラーニング以前は、むしろ記号処理的なAIが研究の主流であり、ディープラーニングが登場したことでそれまで傍流とされていた多層パーセプトロンの研究が一気に進むことになったのは、わずかここ十年の話である。

強化学習もまた、多層パーセプトロンと同じように、AI研究全般からするとやや傍流の地位に甘んじていた。その理由は、ロボットの制御や学習には膨大な試行錯誤が必要であり、単純に手間と費用がかかること、もう1つは、シミュレーターなどで強化学習したものを実際のロボットに載せ替える際にシミュレーション環境と現実の環境のギャップを埋めるのにやはり手間と文章化しにくいノウハウが必要となり、研究の主流にはなりにくかった。この状況は今もそれほど変わっているわけではない。

その中で、AI冬の時代と言われた2000年代前半も強化学習にこだわって研究を続け、名実ともに強化学習の第一人者と呼ばれるのが、テキサス大学オースティン校のピーター・ストーン教授だ。2022年夏に、ストーン教授に単独インタビューを実施した。ストーン教授はソニーグループ傘下にあるAI研究組織、ソニーリサーチアメリカ（Sony Research America）のエグゼクティブ・ディレクターでもある。

ピーター・ストーン：テキサス大学オースティン校コンピュータサイエンス学部教授。Texas Roboticsのディレクター、Sony Research Americaのエグゼクティブ・ディレクターも務める。2012年にアメリカ人工知能学会（Association for the Advancement of Artificial Intelligence：AAAI）フェロー、2021年に計算機協会（Association for Computing Machinery：ACM）フェローに選出されている。

◆

AIは人を感動させることができるか

──ストーン教授の現在の研究テーマを教えてください。

私はソニーリサーチ（旧ソニーAI）アメリカのエグゼクティブ・ディレクターであり、ソニーリサーチの3つのメインチームの1つでリーダーシップの役割を担っています。ソニーリサーチアメリカは北米全土に散らばっており、ソニーリサーチアメリカのピート・ワーマン所長とともにこのグループを率いています。

現在、目標条件付き強化学習をより効率的にするために、いくつかの新しいニューラルアーキテクチャに取り組んでいます。AIへの新しいアルゴリズム的アプローチです。

ディープテイマー（Deep Tamer）は、テイマーという強化学習アルゴリズムから派生したものです。テイマーは、ブラッド・ノックス（Brad Knox）という、私のラボの学生が書いた博士論文でした。ディープテイマーは、テイマーとディープラーニングを組み合わせ、人間の調教師（テイマー）がAIのとった行動に対して「良い」「悪い」といった評価を与えると、AIが自力で学習するよりも早く要領をつかむという手法で、学習時間の短縮に効果があります。

最近、このディープテイマーのコンセプトを、私たちが「エンパシー」と呼ぶシステムへと拡張しました。エンパシーとディープテイマーの大きな違いは、ディープテイマーでは、人間の調教師がコンピューターに張りついて、「良い」「悪い」という信号を積極的にクリックする必要がありますが、「エンパシー」では、コンピューターは調教師の表情を見るだけで正しい動きを学習します。

ディープテイマーとその他の強化学習の比較。わずか15分で最高性能に達する（Warnell et al, 2018）。

──表情からどうやってAIが振る舞いの「良い」「悪い」を見分けるのですか。

例えば自動運転車に乗っていて、その人が怖がっているように見えたら、おそらくそれが悪いことだと判定できるでしょう（笑）。その人が落ち着いていて、景色を楽しんでいるように見えたら、そのAIは運転をうまく学習できている可能性があります。

──AIは人の心を感動させる創作物を作ることができると思いますか。

確かにAIは絵や文章を作り出すことができます。人々が想像もしていなかった新しいテキストや新しい画像を作成することもできます。しかし、それが感動的なものなのか、それとも人々の感情に影響を与えるものなのかは意見の別れるところでしょう。一部の人は、AIが作成したものに感動したと主張していますが、懐疑的な見方をする人々もいます。

人間の創造性を高めるために AI ができることはたくさんあると思います。それがソニーリサーチでの私たちのテーマの1つでもあります。文学は基本的に人文主義です。人間が人間とコミュニケーションをとることを目指しています。アートや映画や文学は人によって創り出されたものですし、私は生涯、人の創り出したアートを楽しむでしょう。

しかし同時に、創造的な芸術作品がAIによって生まれる可能性を軽視するつもりはありません。その AIシステムが作成する文学は、人々に語りかけるかもしれませんし、人々を感動させる可能性もあるかもしれません。ただ、今のところ、それはとても難しいです。

断言するのが難しい質問ですが、芸術の背後にある人間性が大切だと考えています。

──AIにはどんなことができますか。また、できないことはなんでしょうか。

AIは常に、できることの境界を押し広げようとしています。AI以前のコンピューターができることに比べ、過去 10 年ほどの間に、大きな成功が数多くありました。

過去10年ほどのAIの進歩は、人工ニューラルネットワークの時代の到来であり、人々はそれをディープラーニングとも呼んでいますが、基本的には、何年にもわたって研究され、何十年にもわたって開発されてきたテクノロジーが花開いたわけです。現在のレベルに到達する前、約 10 年前においても、十分な計算が行われ、十分なデータが得られ、本当に印象的な結果が得られるようになりました。最初の成功は画像認識の領域でした。それ以来、大規模な言語モデルなどを使用した自然言語処理の分野を含め、現在この分野は非常に重要な研究テーマの1つとなっています。より多くのデータとより多くの計算スケールが必要になります。AIの根本的な限界が何かということは、まだ誰にも分かっていません。ディープラーニングの研究はまだ始まったばかりです。

私にとって誇らしい成果ですが、ソニーリサーチのチームは「グランツーリスモ・ソフィ（Gran Turismo Sophy、以降GTソフィ）」と呼ばれるエンドツーエンドの強化学習エージェントを作成しました。これは、人間の最高レベルのドライバーを凌駕します。実際にプレイステーションのレースゲーム「グランツーリスモ」で人間のチャンピオンドライバーを打ち負かすことができました。 eスポーツの関係者をはじめ、この分野で本当に優れた人間の専門家たちも、この目標が達成される以前は、AIエージェントにそこまでの高度な判断力を持たせることができるか確信が持てていませんでした。

私たちはまだAIの限界が何であるかを知りません。まだまだ挑戦すべき題材はたくさんあります。ニューラルネットワークは永遠にツールボックスの一部になるでしょうが、個人的には、ニューラルネットワークが全ての AI を解決するとは思いません。AIには他にも多くの側面があります。

ロボカップとマルチエージェントシステムの研究

──ストーン教授はなぜAIの研究を始めたのでしょうか。経歴について教えてください。

私のキャリアの全ては知的に行動できる機械を作ることに専念してきました。私が常にこの概念に魅了されてきたからです。

そもそも知能とは何でしょうか。人を知的にするものは何か、知性とは何か。私は、もともと数学とプログラミングは得意だったので、AIを研究することで、この疑問を解決しようと考えました。

現代は知性がどのように機能するか解明されつつあります。この研究には複数の異なる分野の人々が関与していますが、コンピューターサイエンスとAIは、その全体のストーリーで重要な役割を果たしていると思います。それは非常に興味深いものです。

──数学とプログラミングが得意だったとのことですが、どんな少年でしたか。そしてなぜ人のように振る舞う機械を作ろうと考えたのでしょうか。

子どもの頃、数学にとても興味がありました。問題を解決しようとすることを本当に楽しんでいました。学校の数学クラブに入っていました。また、化学と物理学に関連するクラブにいたこともあります。

実は勉強だけでなく、スポーツも好きでした。私は6歳の時からサッカーチームに所属していて、高校ではずっとサッカーをプレーしていました。高校と大学では代表チームに所属していました。他にも、ストリートでは放課後にホッケーをして、ときどきローラースケートやアメリカンフットボール、野球をしたこともありました。

音楽も好きでした。ニューヨークのバッファロー・スズキ・ストリングスという音楽学校にも通っていました。西ヨーロッパやロシア、ハンガリーに数週間行ったツアーのソリストで、フリッツ・クライスラーの曲をソロで演奏していました。要するに、私の子ども時代は音楽とスポーツと学問が混ざり合ったものでした。バッファローはそれ自体が大都市で、トロントやカナダにも比較的近いので、とても寒いです。雪がたくさんあります。冬は友達とスキーしたり、たまにアイススケートをしたりしていました。

──AIやロボット工学に出合ったのはいつ頃ですか。

AIに初めて触れたのは、日本で言うところの高校1年生か2年生の時です。遠足で地元の大学まで行って、そこで、触れた短い講義の 1 つに、AIの講義がありました。カメラで撮影した三角形や四角形を見分けるアルゴリズムについて解説されていたのですが、簡単そうに見えて非常に難しいことが分かったのが新鮮でした。

本格的にAIを勉強したのは、シカゴ大学での講義でした。私は物理学に興味があったので、最初は物理学の講義を受けていたのですが、AIの研究が面白く、大学卒業の頃にはAIの博士課程に進むことにしました。知性の正体を知りたくて、神経科学と心理学も学んでいましたが、コンピューターサイエンスのやり方が好ましいと考えました。

──教授は人工知能を搭載したロボットのサッカー大会であるロボカップ（RoboCup）の名手としても有名です。

ロボットサッカーに初めて出合ったのは、ロボカップが始まる前のことでした。それは私にとって本当に人生を変えるような経験でした。博士号を取得した最初の年、1993年にシアトルで開催された AIカンファレンスに行くと、ロボットのデモがいくつかあり、うち1つはブリティッシュコロンビア大学のグループによるものでした。 2 台のロボットがロボットサッカーのゲームをしていました。ボールはピンポン玉のようなもので、フィールドはベニヤ板でできていました。それまで研究でサッカーを扱うことについて考えたことはありませんでした。当時、これは非常に挑戦的なテーマに思えました。

カーネギーメロン大学の素晴らしい環境でマルチエージェントシステムについて学び、研究を始めましたが、その頃、すでに私たちのグループ以外にも、例えば、北野宏明氏、浅田稔氏、松原仁氏ら、日本をはじめ何人かの研究者が世界中に現れていました。

ロボットサッカーはAIにとって大きな挑戦になる可能性を感じて、かなり早い段階からロボカップに直接関与するようになりました。 1996年の大会では、最初に何人かが集まりました。その後、ロボカップの世界大会が始まった1997 年以来、全ての大会に参加しています。つい最近までロボカップの会長として3年間の任期を終えたところです。

──ストーン教授のチームが参加しているのはどんな種目ですか。

私のチーム「UTオースティンヴィラ」は複数のリーグに参加しています。 3Dシミュレーションリーグや、RoboCup@Homeの国内標準プラットフォームリーグなどです。これらのリーグを選択したのは、主に私の研究室がエンジニアリングラボではなくコンピューターサイエンスの研究室であるためです。私たちはハードウェアの設計はせずにAIのプログラミングに集中することができます。

国内標準プラットフォームリーグでは、今はソフトバンクロボティクスのヒューマノイドロボットのナオ（NAO）を用いています。昔はソニーのアイボ（aibo）を使用していました。 3Dシミュレーションリーグでも同様に、各チームに11 体のロボットがあり、重力のある物理シミュレーター上に本体があるため、特にこのリーグで機械学習に取り組んでいます。とても挑戦的な知覚と戦術の問題です。

──ストーン教授のチームは常勝チームとして有名です。その秘密はなんでしょうか。

特に秘密はありません（笑）。オースティンのテキサス大学の素晴らしい学生たちの功績です。本当に才能のある学生と一緒に仕事をしてきました。競争に勝つことができれば、それに越したことはありませんが、常に勝てるかどうかは本当に分かりません。勝つことは素晴らしいことだと思います。

ロボカップの利点は、学生にとって挑戦的な経験をすることであり、戦いを通じて研究のインスピレーションを得ることです。勝利の秘訣があるとすれば、素晴らしい学生集団です。多くの学生が集中力と勤勉さを知っています。毎年かなりの時間を費やしています。

私自身もロボカップを通じてインスピレーションを得ています。私が1998年に書いた博士論文はレイヤード学習と呼ばれる新しい階層強化学習アルゴリズムでした。複雑な学習問題の問題を部分に分解して学習していくという手法です。

ロボカップでの研究を通じて、限られたハードウェアで照明条件を変更しながらリアルタイムで実行できる画像認識システムを作成しようとしています。私たちのロボットは、学習アルゴリズムを改良しただけで、他のチームのロボットよりも速く、安定して歩けるようになりました。私たちがアドホックチームワークと呼んでいる研究では、ロボットやその他のAIエージェントのチームを、サッカーのように事前調整なしで協力させられないか研究しています。非常に難しいチャレンジですが、もしもロボットが初見のチームメイトと一緒にチームプレーできるようになれば、最終的には、ロボットが人間のチームにまじってプレーするようなこともできるようになるはずです。

私が常に追求してきた問題は、チームメイトと敵の両方がいる動的な環境での作業を学習できる堅牢でインテリジェントな自律型エージェントを作成する方法の探究です。私のラボの主なテーマは、機械学習、特に強化学習であり、実際のロボットで作業するのに十分な実用性を実現することです。チームメイトと敵対者が相互に作用するマルチエージェント環境、一言で言えば、強化学習によるマルチエージェントシステムの研究です。

AI研究は幻想的でエキサイティング

──ロボットは将来私たちの生活にどのように入り込んでくるでしょうか。

ロボットはさまざまな形で私たちの生活に入ってきていると思います。すでにロボットは製造業のいたるところに存在しています。また、最も積極的な方向の1つは自動運転です。自動運転される車はロボットであるとも言えます。

また、遠隔地を体験するテレプレゼンスロボットとロボット掃除機はすでにあります。配達用のロボットがすでに開発されていますし、人が行けない場所での捜索と救助のためのロボットもあります。多くの人がロボットをより実行可能にするテクノロジーに積極的に取り組んでいます。消費者製品として、最終的には現在よりもはるかに多くの方法で私たちの生活に取り入れられるでしょう。

──答えるのは難しいかもしれませんが、10年後、AIはどうなっているでしょうか。

確かに非常に難しい質問ですね。私は長年の経験からこう考えています。10年では決して解決しないように見える課題はたくさんあります。少なくとも過去 10 年間のペースから判断すると、10年後でも自動運転の研究は続いているでしょう。GPT-3やDALL-Eなど、その他の大規模な言語モデルの登場は、研究を新しい方向に進める新しいテストベッドになります。10年後も、人々はまだロボットサッカーの研究を続けているでしょうね。でも、うまくいけば、私たちは新しく改良されたツール、新しく改良されたロボットでもっとうまくロボットサッカーをやれているといいですね。

AI研究者と神経科学者と心理学者の交流が始まっており、学際的なコミュニティができていますが、今後10年以内にこれまでよりも緊密で深いつながりが生まれることを本当に願っています。

また、AIを作り、使うための訓練を子どもたちにする必要があるのは間違いないでしょう。AIの社会的影響は、今後10年間でますます成熟し、洗練されたものになると思います。

──印象的な回答ありがとうございます。日本の研究者やビジネスパーソンに対して何かメッセージはありますか。

特に、分野としてAIに参入することを検討している若い人々に伝えたいのは、AIが依然として幻想的でエキサイティングな分野であるということです。ロボカップに参加することもぜひ考えてみてください。先ほど言ったように、この研究分野はすぐにはなくならないでしょう。とても楽しい分野です。多くのインスピレーションがあります。

2050年までに、最高のサッカー選手と同じくらい優れた人型サッカーロボットを作成するというロボカップの目標を実際に達成できるのは、まさにこれから始める人々かもしれません。それはとても素晴らしいことです。

人気の記事ランキング

清水亮 [Ryo Shimizu]日本版寄稿者: 1976年、長岡生まれ。プログラマーとして世界を放浪し、数々のソフトウェア開発を手掛ける人工知能研究者。東京大学情報学環客員研究員。主な著書に『よくわかる人工知能』（KADOKAWA）、『教養としてのプログラミング講座』（中央公論社）など。

▼Promotion