グーグル・ディープマインド(Google Deepmind)は12月11日、生成AIテクノロジーを使った消費者向け製品市場で巻き返しを図るべく、多数の新製品とプロトタイプを発表した。
最注目は、マルチモーダル大規模言語モデル・ファミリー「Gemini(ジェミニ)」の最新版で、エージェントを制御する機能を中心に再設計された「Gemini 2.0」だ。また、今年5月にグーグルの開発者向け年次イベント「グーグルI/O」でデモが披露された実験的な万能アプリ「プロジェクト・アストラ(Project Astra)」の新バージョンも発表された。
MITテクノロジーレビューは先週、非公開のライブデモでAstraを試す機会を得た。それは驚くべき体験だったが、洗練されたプロモーション映像とライブデモの間には大きなギャップがあった。
Astraは、Gemini 2.0のビルトイン・エージェント・フレームワークを活用し、テキスト、音声、画像、動画を通じて質問に答えたりタスクを実行したりする。また、必要に応じて検索、マップ、レンズなどの既存のグーグルアプリを呼び出すことができる。「これは、現代で最もパワフルな情報検索システムのいくつかを統合したものです」と、Astraのプロダクト・マネージャーであるビボ・シューは語る。
Gemini 2.0とAstraに加え、Geminiを基盤に構築され、ユーザーの代わりにWeb検索を実行する新しいエージェント「Mariner(マリナー)」、Geminiを搭載した新しいコーディング・アシスタント「Jules(ジュールズ)」、ビデオゲーム・プレイヤーがプレイ中にチャットしてヒントを求めることができる実験的アシスタント「Gemini for Games(ゲーム用ジェミニ)」も発表された。
さらに、新しい動画生成モデル「Veo(ベオ)」、画像生成モデルの最新バージョン「Imagen 3(イマジェン3)」、そして量子コンピューター向けの新型チップ「Willow(ウィロウ)」も見逃せない。まさに目を見張るような新製品のリストである。一方、グーグル・ディープマインドの最高経営責任者(CEO)であるデミス・ハサビスは12月10日、スウェーデンでノーベル賞を受け取った。
グーグル・ディープマインドは、Gemini 2.0が前バージョンのGemini 1.5よりも2倍高速化しており、数学、物理学、健康、心理学、哲学などの幅広い分野にわたる大規模言語モデルの能力を評価するために設計された多肢選択問題の大規模セット「MMLU-Pro」を含む複数の標準ベンチマークで、前バージョンを上回っていると主張している。
だが、Gemini 2.0のような最上位モデルと、オープンAIやアンソロピック(Anthropic)など競合企業の最上位モデルとの差は、今やごくわずかなものになっている。最近では、大規模言語モデルの進歩は、そのモデルがどれだけ優れているかではなく、それを使って何ができるかのほうが重要になっている。
そこで注目されるのが、「エージェント」である。
Astraを実際に体験
先週、私はロンドンのキングス・クロス地区にあるビルにいた。上層階の何も書かれていないドアを通され、案内されたのは、秘密プロジェクトの雰囲気が漂う部屋だ。壁の一面には巨大な文字で「ASTRA」と描かれていた。このプロジェクトの事実上のマスコットであるシューの愛犬チャーリーが、研究者やエンジニアたちの机の間を歩き回っていた。彼らはグーグルが未来を賭ける製品の開発に忙しく取り組んでいた。
「母に説明するときは、私たちは目と耳と声を持つAIを作っていると言っています。それはどこでも一緒にいて、どんなことでも助けてくれる存在です」とアストラチームの共同リーダーであるグレッグ・ウェインは語る。「まだそこまで到達していませんが、そうしたビジョンを持っています」。
シューやウェイン、そして同僚たちが開発しているものの正式名称は「ユニバーサル・アシスタント」だ。しかし、それが実際に何を意味するのかについては、まだ模索している段階だという。
Astraが開発されている部屋の一端には、チームがデモに使用する2つのステージセットが設置されていた。ドリンクバーと模擬アートギ …