MITテクノロジーレビューで何度も紹介してきた「GPT-3」は、本物の人間に極めて近い言葉を作り出す巨大な人工知能(AI)だ。だが、その大部分は蜃気楼のようなものだ。それは、単純なトリックで見分けがつく。GPT-3に羊の色を尋ねると、「白」と同じくらい頻繁に「黒」と答えるのだ。これは、日常語として使われる、厄介者という意味の「ブラック・シープ(black sheep)」という言い回しを反映しているからだ。
- この記事はマガジン「10 Breakthrough Technologies」に収録されています。 マガジンの紹介
それが言語モデルの問題点だ。テキストだけで訓練されているため、常識的判断(common sense)が欠落しているのだ。ノースカロライナ大学チャペルヒル校の研究チームは現在、この問題を解決する新たな技法を開発している。「ヴォケニゼーション(vokenization)」と呼ばれるこの技法は、GPT-3のような言語モデルに「見る」能力を与えるものだ。
言語モデルとコンピュータ-・ビジョンを組み合わせる試み自体は初めてではない。現在急速に成長しているAI研究分野の1つだ。この2種類のAIにはそれぞれの強みがある。GPT-3のような言語モデルは、手作業のラベル付けを必要としない教師なし学習によって訓練されるため、規模を拡大するのが容易だ。これに対して、物体認識システムのような画像モデルは、もっと直接的に現実から学習する。言い換えれば、画像モデルの理解はテキストのような抽象化に頼らない。羊の写真からは、実際に羊が白いことを「見られる」のだ。
言語と視覚の両方からの入力を解析できるAIモデルには、極めて実用的な使い道がある。例えば、人間を補助するロボットを作るには、現実世界をナビゲートするためのコンピュータ-・ビジョンと、その情報を人間に伝えるための言語が必要だ。
ただ、両方のタイプのAIを組み合わせるのは、言うは易く行うは難しだ。既存の言語モデルと既存の物体認識システムをただ合体させればいいわけではない。テキストと画像を含むデータセット(視覚言語データセット)を使って、新たなモデルをゼロから訓練する必要があるからだ。
視覚言語データセットを作成する最も一般的な手法は、説明文付きの画像コレクションを用意することだ。例えば、次のような写真には、「オレンジ色の猫がスーツケースの中に座っていて、荷造りされる準備ができている」という説明文が付くことになる。これは、「猫」のように1つの名詞しかラベル付けしない典型的な画像データセットとは異なる。したがって視覚言語データセットは、単に物体を認識する方法だけではなく、物体が相互にどう関連し、どう作用するかを動詞と前置詞を用いてAIモデルに教えることができる。
このデータセットを作成する処理には延々と時間がかかるのは理解いただけるだろう。だからこそ、存在する視覚言語データセットはどれもあまりにちっぽけなのだ。英語版ウィキペディアのような一般的なテキストのみのデータセット(実際にほぼ全ての英語版ウィキペディアの記載項目が含まれている)は、30億ワード近くの単語を有している。だが、「マイクロソフト ・コモン・オブジェクト・イン・コンテクスト(Microsoft Common Objects in Context:MS COCO)」のような視覚言語データセットはわずか700万ワードだ。AIモデルを訓練して役立つ何かにするには、単純にデータが足りないのだ。
ヴォケニゼーションは、教師なし学習の手法でMS COCOのわずかなデータ量を英語版ウィキペディア並みの規模に拡大することで、この問題を解決しようという試みだ。その結果得られた視覚言語データセットは、今日のAIの言語理解の評 …
- 人気の記事ランキング
-
- Bringing the lofty ideas of pure math down to earth 崇高な理念を現実へ、 物理学者が学び直して感じた 「数学」を学ぶ意義
- Promotion Innovators Under 35 Japan × CROSS U 無料イベント「U35イノベーターと考える研究者のキャリア戦略」のご案内
- The 8 worst technology failures of 2024 MITTRが選ぶ、 2024年に「やらかした」 テクノロジー8選
- Google’s new Project Astra could be generative AI’s killer app 世界を驚かせたグーグルの「アストラ」、生成AIのキラーアプリとなるか
- AI’s search for more energy is growing more urgent 生成AIの隠れた代償、激増するデータセンターの環境負荷