Forget chat. AI that can hear, see and click is already here

キラーアプリ不在の生成AIブーム、チャットの次は何が来る？

チャットGPTの登場から2年近くが経過し、生成AI業界は数十億ドル規模のブームとなった。しかし決定的なキラーアプリはいまだ見当たらない。音声や動画を組み合わせたマルチモーダルAIの新サービスは、その模索の最前線だ。 by Melissa Heikkilä2024.11.22

この記事の3つのポイント

グーグルのNotebookLMに追加された新機能Audio Overviewが人気
マルチモーダル生成コンテンツの品質が急速に向上している
生成AIブームが続く中、各社はキラーアプリを模索している

summarized by Claude 3

この記事は米国版ニュースレターを一部再編集したものです。

人工知能（AI）チャットボットとのチャットは、2022年を象徴する出来事だった。最新話題のAIのおもちゃは、画像、音声、テキストなど複数のものを同時に扱える「マルチモーダル・モデル」を駆使している。

その1つが、グーグルのNotebookLM（ノートブックLM）だ。NotebookLMは、グーグルが1年前にひっそりとリリースしたリサーチ・ツールである。数週間前、グーグルはNotebookLMに「Audio Overview（オーディオ・オーバービュー）」という名前のAIポッドキャスティング・ツールを追加した。ユーザーがあらゆることに関するポッドキャストを作成できるツールだ。例えば、自分のリンクトイン（LinkedIn）プロフィールへのリンクを追加すると、このAIポッドキャスト・ホストが9分間にわたり、あなたをおだててくれる。この機能は驚くほどネット上で急速に広まり、ヒットとなった。私は、このツールの奇妙で驚くべき使い方について、『資料を入力、AIが語り出すポッドキャスト自動生成のグーグル新ツールが話題』という記事を書いた。

読者のみなさんにも体験してもらうため、本誌米国版の125周年記念号のポッドキャストを作成した。誌面から見どころをいくつかピックアップし、その内容の要点を教えてくれるという素晴らしい仕事をAIがしている。以下でお聞きいただきたい。

マルチモーダル生成コンテンツも、非常に短期間で著しく良くなった。2022年10月、私はユーザーが入力したテキストを基に短編動画を生成する、メタの「Make-A-Video（メイク・ア・ビデオ）」のことを『今度は「テキストから動画」、メタが生成AIを発表』という記事で取り上げた。この動画は、現在のテクノロジーと比べるとぎこちなくて、くだらなく見える。メタはつい最近、オープンAI（OpenAI）のSora（ソラ）に対抗するツール「Movie Gen（ムービー・ジェン）」を発表したばかりだ。このツールでユーザーは、テキスト・プロンプトを使ってカスタム動画やカスタム音声を作成したり、既存の動画を編集したり、画像から動画を作ったりできる。

私たちがAIシステムとやり取りする方法も変化しており、テキストへの依存度が低くなってきている。オープンAIの新しい「Canvas（キャンバス）」インターフェースは、ユーザーがチャットGPT（ChatGPT）を使ってプロジェクトで共同作業できるようにしている。ユーザーは、何度もテキストを作り直してプロンプト入力をしなければ望む結果が得られなかった従来のチャット・ウィンドウに頼る代わりに、Canvasを使い、結果のテキストやコードの断片を選択して編集できる。

検索機能にさえもマルチモーダルなアップグレードが実施されている。グーグルはAI Overviews（AIオーバービュー）への広告挿入に加え、ユーザーが動画をアップロードし、音声を使って検索できるようにした。グーグルI/Oで実施されたデモでは、グーグル・レンズ（Google Lens）アプリを開いて水族館で泳ぐ魚の動画を撮影し、その魚について質問する方法が紹介された。質問すると、グーグルのGemini（ジェミニ）モデルがWebを検索し、グーグルのAIが要約した形で答えを提示してくれる。

これらの機能を統合しているのが、よりインタラクティブでカスタマイズ可能なインターフェースと、さまざまな多くのタイプのソース素材にAIツールを適用する能力である。NotebookLMは、久しぶりに驚きと楽しさを与えてくれたAI製品である。その理由の1つは、AIの音声が今までとは異なり、リアルで、予想外なものだったからだ。しかし、NotebookLMのAudio Overviewsが、より大きな製品の中に隠された副次的な機能であるにもかかわらず人気に火がついた、という事実は、AI開発者が自分たちのやっていることを本当は分かっていないことを示している。今となっては信じがたいことだが、チャッットGPT自体、オープンAIにとっては予想外のヒットだったのだ。

数十億ドル規模の生成AI（ジェネレーティブAI）ブームが始まって数年が経つ。AIへの莫大な額の投資は、生成結果のコンテンツの質を急速に向上させることに貢献してきた。しかし、まだキラーアプリは登場していない。これらの新しいマルチモーダル・アプリケーションは、AI企業がお金を稼いで成果を出すという非常に大きなプレッシャーにさらされている結果である。テック企業各社は、さまざまなAIツールを人々に提示して、何が受け入れられるか、様子を見ているのだ。

AIが生成した画像でロボットに行動を教える方法

画像生成AIモデルは、ロボットの訓練データを作成するために使われてきた。「ジェニマ（Genima）」と呼ばれるこの新たなシステムは、画像生成AIモデルのステーブル・ディフュージョン（Stable Diffusion）を微調整して、ロボットの動きを描画する。その画像を、シミュレーションと現実世界の両方でロボットを指導するのに利用する。

ジェニマによって、メカニカル・アームから人型ロボットや無人乗用車に至るまで、さまざまなタイプのロボットにタスクをこなす訓練をするのが容易になる可能性がある。また、ほとんど監視を必要とせずに複雑なタスクを遂行できる次世代のAIツールであるAI・Webエージェントが、スクロール操作やクリック操作をより上手にできるようにするのにも役立つかもしれない。詳しくは、本誌のニュース担当記者リアノン・ウィリアムズの記事『画像生成AIがロボットに動きを指導、訓練効率化で新手法』を読んでほしい。

AI関連のその他のニュース

スタートアップ「パノAI（PanoAI）」はAIを使って山火事を検知する。2024年版注目の気候テック企業リストが発表された。このリストに入った企業の1つ、パノAIは、コンピューター・ビジョンと超高解像度カメラを使い、消防士に新たな火災の発生を知らせる。（MIT テクノロジーレビュー）
サム・アルトマンはいかにして権力を自らの手に集中させたか。そして、最後に残ったのは1人だった。オープンAIは現在、1570億ドルの評価を受けている。同社がどのようにして経営トップのほとんどを失い、アルトマン主導で利益を追求する怪物へと変化していったのか、ブルームバーグが詳しく書いている。（ブルームバーグ）
8人の科学者、10億ドル、そして英国を再び偉大な国にしようとしている月探査機打ち上げ機関。英国の新しい高等研究発明局（ARIA）に関する優れたプロフィール記事だ。この機関は、米国国防高等研究計画局（DARPA）に対する英国の回答である。チューリング賞を受賞したヨシュア・ベンジョの、AIによる大災害を防ぐプロジェクトなどに資金を提供している。（ワイアード）
テック業界の女性が警鐘を鳴らしている理由。テック業界におけるAIブームは、長年の多様性と包摂性への取り組みを後退させ、女性に不利な影響を与えている。（ジ・インフォメーション）

人気の記事ランキング

メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者: MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ（POLITICO）』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」（欧州メディア部門）に選出された。