KADOKAWA Technology Review
×
Innovators Under 35 Japan 2026 候補者募集開始!
DALL·E、CLIP——AIが描いた「アボカド椅子」が示す未来
Open AI
人工知能(AI) 無料会員限定
This avocado armchair could be the future of AI

DALL·E、CLIP——AIが描いた「アボカド椅子」が示す未来

オープンAI(OpenAI)は、説明文を入力すると、それにあてはある画像を大量に生成するAIモデルを発表した。自然言語処理と画像認識を組み合わせることで、AIをより賢くするアプローチが採用されている。 by Will Douglas Heaven2021.01.23

オープンAIはGPT-3で、大量のテキストを与えるだけで、単一の深層学習モデルがさまざまな方法で言語を使えるように訓練できることを示した。さらに、テキストをピクセル・データに置き変えることで、同様のアプローチで人工知能(AI)を訓練し、未完成の画像を完成させられることも示した。GPT-3は人間の言葉の使い方を模倣し、イメージGPT-3(Image GPT-3)は人間が見ているものを予測する。

オープンAIはこれらのアイデアを融合し、DALL·E(ダリー)、CLIP(クリップ:対照的言語-画像事前訓練)と呼ばれる2つの新しいモデルを構築した。これらのモデルは言語と画像を組み合わせ、AIが言葉そのものと、言葉が表すものの両方を理解しやすくするものだ。

オープンAIのイリヤ・サツケバー主任科学者は、「私たちは視覚的な世界に生きています」と述べる。「将来的には、テキストと画像の両方を理解するAIモデルが現れます。いずれAIは単語や文章の意味を認識し、より正確に言語を理解できるようになるでしょう」。

GPT-3の出力はどこか現実離れしたものになることがある。まるで何を言っているのか、よく分かっていないかのようなものが出力されてしまうのだ。実際、GPT-3は分かってはいない。オープンAIなどの研究者らは、テキストと画像の結び付きを強化する手法をとることで、人間にとっては当たり前の事柄や考え方を言語モデルにより正確に理解させようとしている。

DALL-EとCLIPは、それぞれこの問題を異なる切り口で捉えている。 CLIPは一見すると、よくある画像認識システムだ。ただ、既存の画像認識システムのほとんどは、精選されたラベル付きのデータセットからしか画像を認識できない。CLIPはそうした画像認識システムとは異なり、インターネット上の画像とキャプションを認識できる。CLIPは「猫」や「バナナ」といった1つの単語のラベルではなく、説明文から画像に何が描かれているかを学ぶのだ。

CLIPはある画像に対し、3万2768種類のランダムな説明文のうち、どの説明文が当てはまるのかを予測させる手法で訓練されている。この課題を解くため、CLIPは多くのものとその名前、そのものを表現する言葉を紐づけることを学ぶ。これによって、画像の中に訓練データにないものがあったとしても認識できるようになる。多くの画像認識システムは、特定のものを認識するよう設計されている。例えば監視カメラの映像の中の顔や、衛星画像の中の建物などだ。GPT-3と同様、CLIPは追加訓練なしにさまざまなタスクに応用できるよう、汎化が可能だ。さらに、他の最新の画像認識モデルよりも、敵対的サンプルに惑わされる可能性が低い。敵対的サ …

こちらは会員限定の記事です。
メールアドレスの登録で続きを読めます。
有料会員にはメリットがいっぱい!
  1. 毎月120本以上更新されるオリジナル記事で、人工知能から遺伝子療法まで、先端テクノロジーの最新動向がわかる。
  2. オリジナル記事をテーマ別に再構成したPDFファイル「eムック」を毎月配信。
    重要テーマが押さえられる。
  3. 各分野のキーパーソンを招いたトークイベント、関連セミナーに優待価格でご招待。
人気の記事ランキング
  1. It’s time to address the looming crisis in entry-level work. 「コーディングを学べ」もう通用せず、AIが若者の雇用を奪い始めた
  2. Promotion Call for entries for Innovators Under 35 Japan 2026 「Innovators Under 35 Japan」2026年度候補者募集のお知らせ
  3. Anthropic’s Code with Claude showed off coding’s future—whether you like it or not 「Claudeに任せてしまおう」 たった1年で激変したソフトウェア開発
▼Promotion
社会実装都市「ひろしま」の魅力に迫る ローカル ✕ イノベーション
MITテクノロジーレビューが選んだ、AIの10大潮流 [2026年版]

AIをめぐる喧騒の中で、本当に目を向けるべきものは何か。この問いに対する答えとして、MITテクノロジーレビューはAIの重要なアイデア、潮流、新たな進展を整理したリストを発表する。

特集ページへ
MITテクノロジーレビューが選んだ、 世界を変える10大技術

MITテクノロジーレビューの記者と編集者は、未来を形作るエマージング・テクノロジーについて常に議論している。年に一度、私たちは現状を確認し、その見通しを読者に共有する。以下に挙げるのは、良くも悪くも今後数年間で進歩を促し、あるいは大きな変化を引き起こすと本誌が考えるテクノロジーである。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る