AIの認識能力が向上している。100万枚の画像を見せれば、歩行者が横断する様などを異常な精度で解析する。だが、AI自身が歩行者の画像を作り出すことは絶望的だ。もしそれが可能ならば、さまざまな状況における大量の現実的な歩行者の合成画像を作れるだろう。この合成画像を使えば、自動運転車は道路に出ることなく自分で学習できる。
問題は、まったく新しい何かを作ることは想像力を必要し、そしてその想像力が今までAIを混乱させてきたということだ。
競争式生成ネットワーク
- ブレークスルー
- 2つのAIシステムが対決することで、超現実的な独自の画像や音声を作り出す。これまでのAIにはできなかったことだ。
- なぜ重要か
- このテクノロジーによってAIが想像力のようなものを得ると、人間への依存度が減り、デジタル模倣機として驚くほど強力なツールに変貌するかもしれない。
- キー・プレーヤー
- グーグル・ブレイン(Google Brain)、ディープマインド(Deepmind)、エヌビディア(Nvidia)
- 実現時期
- 実現済み
2014年、当時モントリオール大学の博士課程に在籍中だったイアン・グッドフェローが、最初に解決策を思いついた。バーで学問的議論を展開していたときだった。競争式生成ネットワーク(GAN: Generative Adversarial Networks)として知られるこのアプローチは、2つのニューラル・ネットワークをデジタルいたちごっこで互いに戦わせるものだ。
いずれのニューラル・ネットワークも同じデータセットで訓練する。1つは生成モデル(generator)と呼ばれ、すでに見たことがある画像をさまざまに変化させ、歩行者にもう一本別の腕があるような画像を作り出す。もう1つは、識別モデル(discriminator)と呼ばれ、とらえたサンプルがいままでに訓練したことがあるものなのか、あるいは生成モデルによって作られた偽物なのかを特定する。さて、腕が3本ある人間は本物だと判断するだろうか?
ときが経つにつれ、生成モデルの画像生成能力が向上し、識別モデルが偽物を見分けられなくなる。本質的に、生成モデルは本物の歩行者のような画像を認識して作り出すように教えられている。
このテクノロジーは、過去10年間で最も期待できる成果の1つとなった。人間ですら騙されるような結果を機械が作り出せるようになったのだ。
GANは本物のような音声や偽物画像を作り出すために使われてきた。半導体メーカーのエヌビディア(Nvidia)がGANにセレブの写真を与え、本物と見分けのつかない実在しない人のもっともらしい顔写真を何百枚と作り出したことは、注目せずにはいられない例の1つだろう。他の研究グループは、ゴッホの作品らしく見えるもっともらしい偽絵画を作り出した。さらにいうと、太陽が降り注ぐ道路を雪の降る道路にしたり、馬をシマウマにしたりと、GANは異なる方法で画像を再形成できる。
いつも完璧な結果が得られるというわけではない。GANはハンドルを2つ付けた自転車や、眉が変なところについた顔なども作り出す。だが、多くの画像や音声が驚くほど本物そっくりなため、GANが見たり聞いたりした世界の基本的な構造を理解し始めていると、一部の専門家は信じている。つまり、想像力を得たAIは、目の前の世界を理解する別の能力を持つ可能性があることを意味している。
(ジェイミー・コンドリフ)
※MITテクノロジーレビュー[日本版]では「Generative Adversarial Networks」の日本語訳として「競争式生成ネットワーク」を採用しています。
- 関連記事