さよならAlexa、オープンAIとグーグルのAIアシスタントが超進化
グーグルとオープンAIが今週、それぞれ新しいAIアシストタントを発表した。SiriやAlexa(アレクサ)のようなツールからの飛躍的な進歩となる。 by James O'Donnell2024.05.17
グーグルとオープンAI(OpenAI)は今週、超高性能な人工知能(AI)アシスタントをそれぞれ開発したと発表した。いずれも、リアルタイムで人間と会話でき、途中で話を遮っても再開ができ、ライブ映像で相手の周囲を分析して即座に会話を翻訳することもできる。
先手を打ったのはオープンAIだ。5月13日、同社は新型フラグシップモデルの「GPT-4o」を公開した。ライブデモでは、GPT-4oが子どもを寝かしつけるために物語を読み聞かせたり、数学の問題を解いたりする様子が披露された。GPT-4oの音声は、映画『her/世界でひとつの彼女』に登場するホアキン・フェニックスのAIガールフレンドの声に不気味なほど似ていた(オープンAIのサム・アルトマンCEOも、そのことに気づいているようだ)。
翌14日には、グーグルが対話型アシスタント「Gemini Live(ジェミニ・ライブ)」をはじめとする独自の最新ツールを複数発表した。GPT-4oにできることの多くはGemini Liveにもできる。またグーグルは、「何でもできる」AIエージェントを開発していることも明かした。現在開発中で、公開は今年の後半になるという。
メーカーの期待どおり、日々のルーティーンの中でこうしたツールに頼ることになるのか、それともSFチックなパーティの出し物としていずれ魅力を失ってしまうのか。間もなく自分の目で確かめられるようになる。ここではこれらの新ツールへアクセスする方法や利用可能な用途、そして費用について、知っておくべき情報を紹介しよう。
オープンAIのGPT-4o
できること:リアルタイムでの会話が可能で、応答遅延は320ミリ秒。オープンAIによると、これは人間同士の自然な会話と同程度だという。スマホのカメラで写したものを何でも説明でき、コーディングやテキストの翻訳といったタスクにも対応する。情報の要約、画像やフォント、3Dレンダリングの生成も可能だ。
利用方法:オープンAIによると、GPT-4oのテキストおよびビジョン機能はWebインターフェイスとGPTアプリで順次展開していく予定だが、具体的なスケジュールは設定されていない。今後数週間で音声機能を追加するとしているが、こちらも明確な日付は未定だ。開発者はすでにAPI経由でテキストおよびビジョン機能にアクセスできる。ただし、音声モードは当初、開発者のうち「小規模なグループ」にのみ提供するという。
費用:GPT-4oは無料で利用できる。ただし、使用量に上限があり、上限を超えると有料版へのアップグレードが必要だ。月額20ドルからの有料版に加入した場合、GPT-4oの容量は5倍になるという。
グーグルのGemini Live
Gemini Liveとは? GPT-4oに最もよく似ているグーグル製品。リアルタイムで会話が可能なグーグル版のAIモデルだ。グーグルによると、「今年後半」にはGemini Liveを利用してライブ映像を通じたコミュニケーションが可能になるという。Gemini Liveは就職面接の準備やスピーチのリハーサルなどで役立つ対話型アシスタントになるとしている。
アクセス方法:Gemini Liveは、グーグルのプレミアムAIプランである「Gemini Advanced(ジェミニ・アドバンスト)」で「数カ月中に」公開予定だという。
費用:Gemini Advancedには2カ月の無料トライアル期間が設けられており、その後は月額20ドルとなっている。
では、Project Astraとは何か? Astra(アストラ)は何でもこなすAIエージェントの開発プロジェクト。今回のグーグルI/Oカンファレンスでデモが公開されたが、リリースは今年後半の予定だ。
グーグル・ディープマインドのオリオル・ビニャルズ研究部門副社長は本誌の取材に対し、ユーザーはスマホやデスクトップPCからAstraを使用できるようになるが、スマートグラスなどのデバイスに組み込むといった他の選択肢も検討していると語った。
どちらが優れている?
両モデルの完全版を自分で使ってみないことには何とも言えない。グーグルがProject Astraを洗練された映像で紹介したのに対し、オープンAIはより信ぴょう性の高そうなライブデモでGPT-4oを披露した。だがどちらも、あらかじめ十分に練習を重ねた内容を実行していたはずだ。本当のテストは、それぞれが独自の要求をしてくる数百万人のユーザー向けに公開されてから始まる。
それはさておき、オープンAIが公開した映像 とグーグルの映像を比較した場合、最先端を行く両ツールは少なくとも使い勝手の点で非常によく似ている。一般化すれば、本物のような音声や会話の流れ、さらには歌声まで披露したGPT-4oはオーディオ面で若干勝っているように見える。他方のProject Astraは、映像での会話中にどこにメガネを置いたかを「覚えて」おくことができるなど、視覚面でより高度な能力を発揮していた。新機能をいち早く展開するオープンAIの製品が、最初のうちはグーグル製品よりも多く利用されるだろう。グーグルの方は今年後半になるまで完全な形で利用できない。どちらのモデルが偽情報の「幻覚(ハルシネーション)」を起こしにくいのか、より有益な反応を返しやすいのかについては、現時点では何とも言いがたい。
安全性は?
オープンAIもグーグルも、それぞれのモデルをしっかりテストしていると述べている。オープンAIによると、GPT-4oは誤情報や社会心理学といった分野の70人以上の専門家が評価を実施したという。グーグルは、「Geminiにはバイアスや有害性をはじめとして、これまでのあらゆるグーグルAIモデルよりも包括的な安全性評価を実施している」と述べている。
だがどちらの企業も、AIモデルが世界の情報を検索、厳選、評価し、私たちの問いに対して簡潔な答えを提供する未来を作ろうとしているのだ。より単純なチャットボットに対する以上に、彼らの言葉に対して懐疑的で居続けるのが賢明というものだろう。
- 人気の記事ランキング
-
- This AI-generated Minecraft may represent the future of real-time video generation AIがリアルタイムで作り出す、驚きのマイクラ風生成動画
- Promotion Innovators Under 35 Japan Summit 2024 in Nihonbashi 2024年のイノベーターが集結「U35 Summit」参加者募集中
- Why AI could eat quantum computing’s lunch AIの急速な進歩は 量子コンピューターを 不要にするか
- Inside a fusion energy facility 2026年の稼働目指す、コモンウェルスの核融合施設へ行ってみた
- How ChatGPT search paves the way for AI agents 脱チャットGPTへ、オープンAIが強化するプラットフォーム戦略
- ジェームス・オドネル [James O'Donnell]米国版 AI/ハードウェア担当記者
- 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン(FRONTLINE)』の調査報道担当記者。ワシントンポスト、プロパブリカ(ProPublica)、WNYCなどのメディアにも寄稿・出演している。