グーグルは今年後半、「Astra(アストラ)」と呼ばれる新システムを投入する予定だ。これまでに発表された人工知能(AI)アシスタントのうち、もっとも強力かつ先進的なものになると同社は約束する。
ChatGPT(チャットGPT)のような現世代のAIアシスタントは、情報を取得して回答を提供することはできるが、ただそれだけだ。だが、グーグルは今年、AIアシスタントをさらに高度な「エージェント」としてリブランディングする。推論、計画、記憶のスキルを示したり、タスク実行のために複数のステップを実行できるという。
グーグル・ディープマインドの研究担当副社長であるオリオル・ビニャルズは、MIT テクノロジーレビューの取材に対し、「ユーザーはスマホやPCを介してAstraを使用できるようになります。スマートグラスなどのデバイスにAstraを組み込むといった他の選択肢も検討しています」と語った。
グーグルの最高経営責任者(CEO)であるサンダー・ピチャイは、米国現地時間5月14日に開催された「グーグルI/O」カンファレンスに先立つ電話会議で、「私たちはAIエージェント開発の本当に初期段階にいます」と語った。
グーグル・ディープマインド(DeepMind)の共同創業者兼CEOでもあるデミス・ハサビスは、「私たちは常に、日常生活に役立つ万能エージェントを作りたいと考えていました」と述べた。「AIエージェントがユーザーの行動を見聞きすることでユーザーの置かれている状況をよりよく理解し、会話に迅速に対応し、対話のペースと質がより自然に感じられるようになることを想像してください。まさにそれがAstraです」。
Astraは、競合するオープンAI(OpenAI)が、独自の超高性能AIアシスタント「GPT-4o」を発表した翌日に発表された。グーグル・ディープマインドのAstraは、GPT-4oとほぼ同じ方法で音声や映像の入力に応答する。
プレス向けのデモでは、ユーザーがスマホのカメラとスマートグラスを物に向け、それが何か説明するようAstraに求めた。デバイスを窓の外に向け、「ここはどこだと思いますか」と尋ねると、AIシステムはロンドンのキングスクロス、つまりグーグル・ディープマインドの本社所在地だと特定した。また、会話の最初に記録された、ユーザーの眼鏡が机の上にあるということも話すことができた。
ビニャルズ副社長によると、このデモはグーグル・ディープマインドの「リアルタイムで動作するマルチモーダルAI(音声、映像、テキストなど複数の種類の入力を処理できるAI)」のビジョンを体現したものだ。
「将来的には真にユーザーに近づき、ユーザーが望むことを何でもアシストできるようになることを非常に楽しみにしています」と、ビニャルズ副社長は述べた。グーグルは最近、AIモデル「Gemini(ジェミニ)」をアップグレードし、さらに大量のデータを処理できるようにした。このアップグレードにより、より大容量のドキュメントや映像を処理することができるようになり、長い対話も可能になった。
テック企業はAIの覇権をめぐる熾烈な競争の真っ只中だ。AIエージェントは、巨大テック企業が開発の最前線を推し進めていることを示す最新の取り組みだ。AIエージェントはまた、オープンAIやグーグル・ディープマインドなど多くのテック企業が目指している、超知能的なAIシステムの仮説的なアイデアである「汎用AI(AGI)の構築」というナラティブ(物語)にも関わっている。
オンライン検索を専門とするワシントン大学のチラグ・シャー教授は、「最終的には、ユーザーのことを本当によく把握しており、ユーザーのために多くのことをやってくれ、複数のタスクや領域にまたがって作業可能なエージェントが誕生するでしょう」と言う。
このようなビジョンは、今はまだ夢物語にすぎない。しかし今日の発表は、競合他社に追い付くためのグーグルの試みと見るべきだろう。「これらの製品を急ぎ発表することで、グーグルは10億人を超えるユーザーから、モデルをどのように使用し、何が有効だったかなど、さらに多くのデータを収集できます」とシャー教授は話す。
グーグルは今日、グーグルI/OでAIエージェント以外にもさらに多くの新たなAI機能を発表した。グーグルは「AIオーバービュー(概要)」と呼ばれる新機能を通じ、AIを検索にさらに深く統合していく予定だ。インターネットから情報を収集し、検索クエリに応じて短い概要にまとめる機能で、米国では今日から利用できる。当面は米国でのみ利用可能で、いずれ他の国でも利用可能となる予定だ。
ロイター通信ジャーナリズム研究所でAIとデジタルニュースのリサーチフェローを務めるフェリックス・サイモンは、「これによって検索プロセスが高速化され、ユーザーはより複雑でニッチな質問に対しても具体的な回答を得られるようになるでしょう」と話す。「検索が常に苦労してきた点はそこだと思います」。
グーグルが提供するAI検索のもうひとつの新機能は「より良いプランニング」だ。たとえば、旅行代理店にレストランやホテルを提案してもらうように、AI検索に食事や旅行の提案を依頼できるようになる。ジェミニはレシピ通りに調理する際に何をする必要があるか、何を買う必要があるかといった計画をサポートする。また、天気予報のような比較的日常的なタスクから、面接や重要なスピーチの準備といった非常に複雑なタスクまで、AIシステムと対話しながら依頼できるようになる。
さらに、人間と会話しているかのように、ジェミニの話を途中でさえぎって明確な質問をすることもできる。
グーグルはオープンAIに対抗する新たな動きとして、新しい動画生成AIシステム「Veo(ベオ)」も発表した。Veoは短い映像を生成でき、「タイムラプス」や 「風景の空撮 」といったプロンプト(指示テキスト)を理解して映画のようなスタイルを制御できる。
グーグルはユーチューブを所有しているため、生成動画モデルの訓練において大きな強みを持っている。すでにドナルド・グローヴァーやワイクリフ・ジョンといったアーティストとのコラボレーションが発表されている。彼らはグーグルのテクノロジーを利用して作品を制作している。
オープンAIのミラ・ムラティ最高技術責任者(CTO)は今年のはじめ、同社のモデルがユーチューブのデータで訓練されたものかどうかを尋ねられ、口をつぐんだ。グーグル・ディープマインドの上級研究部長であるダグラス・エクも、Veoの開発に使用された訓練データについて本誌の質問に曖昧に答えたが、「ユーチューブ・クリエイターとの契約に従い、一部のユーチューブ・コンテンツで訓練される可能性はあります 」と述べた。
その一方で、グーグルはアーティストが作品制作に利用できるツールとして生成AIを提示しているが、「おそらく既存アーティストの素材を使用することで作品制作の能力を得ているはずです」とシャー教授は言う。グーグルやオープンAIのようなAI企業は、多くの作家やアーティストから「知的財産が同意や対価なしに使用された」と訴訟を起こされている。
「アーティストにとっては、これは諸刃の剣です」と、シャー教授は話す。