サンフランシスコを拠点とする研究機関「オープンAI(OpenAI)」が画像を生成するニューラル・ネットワーク「DALL-E(ダリー)」を2021年初頭に公開したとき、異なる概念を新しい方法で組み合わせる人間のような能力には目を見張るものがあった。DALL-Eが要求に応じて生成する一連の画像はシュールでマンガのようだったが、人工知能(AI)が世界の調和に関する重要な教訓を学んだことを示すものでもあった。DALL-Eが生成したアボカドのひじ掛け椅子の画像は、アボカドと椅子の両方の特徴を備えていた。また、DALL-Eが生成した犬の散歩をするチュチュを着た大根の画像では、大根がチュチュを腰に巻き、手に犬のリードを持っていた。
オープンAIは2022年4月、DALL-Eの後継版となる「DALL-E 2」を発表した。改良された画像を生成するDALL-E 2は、以前よりも使いやすくなっている。そしてDALL-Eとは異なり、(いずれ)一般に公開される予定だ。DALL-E 2が現在のAIの定義を拡張することにより、我々はAIの概念を検証し、AIとは一体何なのかを決定するように強いられるようになるかもしれない。
「DALL-EからDALL-E 2への飛躍は、GPT-2からGPT-3への飛躍を思わせるものです」とシアトルのアレン人工知能研究所(Ai2:Allen Institute for Artificial Intelligence)のオレン・エツィオーニ最高経営責任者(CEO)は述べる。GPT-2とGPT-3はいずれも、オープンAIが開発した大規模言語モデルである。
DALL-Eのような画像生成モデルは、わずか数年で大きな進歩を遂げた。アレン人工知能研究所は2020年、「3人がソファでビデオゲームをする」といったキャプションから画像を生成できるニューラル・ネットワークを披露した。生成された画像は、歪んでぼやけていたものの、ギリギリ認識できるものだった。2021年には、中国のハイテク企業バイドゥ(百度)が、初代DALL-Eの画質を向上させた画像生成モデル「アーニービルグ(ERNIE-ViLG)」を発表した。
DALL-E 2は、そのアプローチをさらに推し進めたものだ。DALL-E 2が生成する画像には目を見張るものがある。例えば、「科学者のテディベア」「馬に乗った宇宙飛行士」「フェルメール風のラッコ」などの画像を生成するよう文章を入力すると、言葉にできるものなら何でも、写真に近い形で生成できる。オープンAIが公開している画像(下記参照)や、オープンAIが4月のデモで紹介した画像は、事前に慎重に選ばれたものだったのだろうが、それでも質の高さは驚くべきものだ。
オープンAIの共同創業者で主任科学者であるイリヤ・サツケバーは、「このニューラル・ネットワークはある意味、卓越した美のサービスであると考えることができます。ときどき、はっとするような画像が生成されるのです」と語る。
DALL-E 2の性能向上は、完全に再設計されたことによるものだ。オリジナル・バージョンのDALL-Eは、多少なりともGPT-3の延長線上にあった。GPT-3は、多くの点で、文章の自動補完機能を猛烈にパワーアップさせたようなものだ。つまり、複数の単語や文章を入力すると、次の数百の単語を勝手に予測してくれるのだ。DALL-Eは、言葉をピクセルに置き換えた違いはあるものの、基本的には同様な仕組みをとっていた。DALL-Eは、入力された文章を受け取ると、次に来る可能性が最も高いピクセル列を予測して画像を生成することによって、文章を「完成」させた。
一方のDALL-E 2は、GPT-3ベースではない。内部では、DALL-E 2は2つのステージで動作す …