MITテクノロジーレビューで何度も紹介してきた「GPT-3」は、本物の人間に極めて近い言葉を作り出す巨大な人工知能(AI)だ。だが、その大部分は蜃気楼のようなものだ。それは、単純なトリックで見分けがつく。GPT-3に羊の色を尋ねると、「白」と同じくらい頻繁に「黒」と答えるのだ。これは、日常語として使われる、厄介者という意味の「ブラック・シープ(black sheep)」という言い回しを反映しているからだ。
- この記事はマガジン「10 Breakthrough Technologies」に収録されています。 マガジンの紹介
それが言語モデルの問題点だ。テキストだけで訓練されているため、常識的判断(common sense)が欠落しているのだ。ノースカロライナ大学チャペルヒル校の研究チームは現在、この問題を解決する新たな技法を開発している。「ヴォケニゼーション(vokenization)」と呼ばれるこの技法は、GPT-3のような言語モデルに「見る」能力を与えるものだ。
言語モデルとコンピュータ-・ビジョンを組み合わせる試み自体は初めてではない。現在急速に成長しているAI研究分野の1つだ。この2種類のAIにはそれぞれの強みがある。GPT-3のような言語モデルは、手作業のラベル付けを必要としない教師なし学習によって訓練されるため、規模を拡大するのが容易だ。これに対して、物体認識システムのような画像モデルは、もっと直接的に現実から学習する。言い換えれば、画像モデルの理解はテキストのような抽象化に頼らない。羊の写真からは、実際に羊が白いことを「見られる」のだ。
言語と視覚の両方からの入力を解析できるAIモデルには、極めて実用的な使い道がある。例えば、人間を補助するロボットを作るには、現実世界をナビゲートするためのコンピュータ-・ビジョンと、その情報を人間に伝えるための言語が必要だ。
ただ、両方のタイプのAIを組み合わせるのは、言うは易く行うは難しだ。既存の言語モデルと既存の物体認識システムをただ合体させればいいわけではない。テキストと画像を含むデータセット(視覚言語データセット)を使って、新たなモデルをゼロから訓練する必要があるからだ。
視覚言語データセットを作成する最も一般的な手法は、説明文付きの画像コレクションを用意することだ。例えば、次のような写真には、「オレンジ色の猫がスーツケースの中に座っていて、荷造りされる準備ができている」という説明文が付くことになる。これは、「猫」のように1つの名詞しかラベル付けしない典型的な画像データセットとは異なる。したがって視覚言語データセットは、単に物体を認識する方法だけではなく、物体が相互にどう関連し、どう作用するかを動詞と前置詞を用いてAIモデルに教えることができる。
このデータセットを作成する処理には延々と時間がかかるのは理解いただけるだろう。だからこそ、存在する視覚言語データセットはどれもあまりにちっぽけなのだ。英語版ウィキペディアのような一般的なテキストのみのデータセット(実際にほぼ全ての英語版ウィキペディアの記載項目が含まれている)は、30億ワード近くの単語を有している。だが、「マイクロソフト ・コモン・オブジェクト・イン・コンテクスト(Microsoft Common Objects in Context:MS COCO)」のような視覚言語データセットはわずか700万ワードだ。AIモデルを訓練して役立つ何かにするには、単純にデータが足りないのだ。
ヴォケニゼーションは、教師なし学習の手法でMS COCOのわずかなデータ量を英語版ウィキペディア並みの規模に拡大することで、この問題を解決しようという試みだ。その結果得られた視覚言語データセットは、今日のAIの言語理解の評 …
- 人気の記事ランキング
-
- What’s on the table at this year’s UN climate conference トランプ再選ショック、開幕したCOP29の議論の行方は?
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- Google DeepMind has a new way to look inside an AI’s “mind” AIの「頭の中」で何が起きているのか? ディープマインドが新ツール
- This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画