オープンAIはGPT-3で、大量のテキストを与えるだけで、単一の深層学習モデルがさまざまな方法で言語を使えるように訓練できることを示した。さらに、テキストをピクセル・データに置き変えることで、同様のアプローチで人工知能(AI)を訓練し、未完成の画像を完成させられることも示した。GPT-3は人間の言葉の使い方を模倣し、イメージGPT-3(Image GPT-3)は人間が見ているものを予測する。
オープンAIはこれらのアイデアを融合し、DALL·E(ダリー)、CLIP(クリップ:対照的言語-画像事前訓練)と呼ばれる2つの新しいモデルを構築した。これらのモデルは言語と画像を組み合わせ、AIが言葉そのものと、言葉が表すものの両方を理解しやすくするものだ。
オープンAIのイリヤ・サツケバー主任科学者は、「私たちは視覚的な世界に生きています」と述べる。「将来的には、テキストと画像の両方を理解するAIモデルが現れます。いずれAIは単語や文章の意味を認識し、より正確に言語を理解できるようになるでしょう」。
GPT-3の出力はどこか現実離れしたものになることがある。まるで何を言っているのか、よく分かっていないかのようなものが出力されてしまうのだ。実際、GPT-3は分かってはいない。オープンAIなどの研究者らは、テキストと画像の結び付きを強化する手法をとることで、人間にとっては当たり前の事柄や考え方を言語モデルにより正確に理解させようとしている。
DALL-EとCLIPは、それぞれこの問題を異なる切り口で捉えている。 CLIPは一見すると、よくある画像認識システムだ。ただ、既存の画像認識システムのほとんどは、精選されたラベル付きのデータセットからしか画像を認識できない。CLIPはそうした画像認識システムとは異なり、インターネット上の画像とキャプションを認識できる。CLIPは「猫」や「バナナ」といった1つの単語のラベルではなく、説明文から画像に何が描かれているかを学ぶのだ。
CLIPはある画像に対し、3万2768種類のランダムな説明文のうち、どの説明文が当てはまるのかを予測させる手法で訓練されている。この課題を解くため、CLIPは多くのものとその名前、そのものを表現する言葉を紐づけることを学ぶ。これによって、画像の中に訓練データにないものがあったとしても認識できるようになる。多くの画像認識システムは、特定のものを認識するよう設計されている。例えば監視カメラの映像の中の顔や、衛星画像の中の建物などだ。GPT-3と同様、CLIPは追加訓練なしにさまざまなタスクに応用できるよう、汎化が可能だ。さらに、他の最新の画像認識モデルよりも、敵対的サンプルに惑わされる可能性が低い。敵対的サ …