KADOKAWA Technology Review
×
10/9「生成AIと法規制のこの1年」開催!申込み受付中
資料を入力、AIが語り出す
ポッドキャスト自動生成の
グーグル新ツールが話題
Stephanie Arnett/MIT Technology Review | rawpixel, envato
People are using Google study software to make AI podcasts—and they’re weird and amazing

資料を入力、AIが語り出す
ポッドキャスト自動生成の
グーグル新ツールが話題

グーグルの新機能「オーディオ・オーバービュー(Audio Overview)」がネット上で意外な人気を集めている。テキストや動画をアップロードするだけで、AIが自動的にポッドキャストを生成。人間らしい会話と豊かな表現力で内容を解説する。その活用例をいくつか紹介しよう。   by Melissa Heikkilä2024.10.08

「さて、今日は最先端のテクノロジーを詳しく掘り下げていくとしよう」。砕けた調子の米国人男性の声がする。ただし、この声を発しているのは人間ではない。声の源は、「オーディオ・オーバービュー(Audio Overview)」というグーグルの新しい人工知能(AI)ポッドキャストツールだ。このツールが予想外のバイラルヒットとなっている。

Audio Overviewは、およそ1年前にリリースされたAIリサーチ・アシスタント「ノートブックLM(NotebookLM)」の一部として、今年9月中旬に提供が始まった。グーグルの「ジェミニ(Gemini) 1.5」モデルを搭載したNotebookLMは、ユーザーがリンクや動画、PDFファイル、テキストなどのコンテンツをアップロードして関連する質問を投げると、それに回答。コンテンツの短い要約も提供する。

このツールは、「ディープダイブ(Deep Dive)」と呼ばれるポッドキャストを生成する。アップロードした内容について、男性と女性の声で議論するのだ。その声は息をのむほどリアルだ。エピソードには、「おや」「わぁ」「ええ」「ちょっと待って、ちゃんと理解させて」 といった、人間らしく聞こえる語句が散りばめられている。 「ホスト」たちは、お互いの発言を遮ることさえある。

この機能をテストするため、私はMIT テクノロジーレビュー(米国版)の創刊125周年記念号からすべての記事をNotebookLMにコピーし、それを元に10分間のポッドキャストを生成するよう求めた。すると、NotebookLMは注目する記事をいくつか選び出し、ホスト役のAIが記事の要点を見事に伝えてくれた。ぜひ聴いてみてほしい。

MIT テクノロジーレビュー創刊125周年記念号

NotebookLMのプロダクトリーダーを務めるライザ・マーティンは、X(旧ツイッター)で、このAIシステムは、「ほんの少しのコンテンツと引き換えに魔法を創り出す」 ように設計されていると語ってている。音声モデルは、感情的で人を惹きつける音声を生み出すように意図されており、「明るく、強い関心を示す口調」でそれを表現しているとマーティンは言う。

もともと学習用ツールとして登場したNotebookLMは、ユーザーたちの間で独自の使い方をされている。マーティンによると、グーグルは現在、長さ、形式、音声、言語の変更など、多くのカスタマイズ・オプションの開発に取り組んでいるという。今のところ、ポッドキャストは英語でのみ生成可能となっているが、レディット(Reddit)ではフランス語とハンガリー語でのオーディオ作成に成功した例も紹介されている。

確かにクールな機能だ。胸が躍るような、と表現することもできるかもしれない。とはいえ、生成AIを悩ませる幻覚(ハルシネーション)やバイアスなどの問題と無縁というわけではない。

NotebookLMのこれまでの主な活用例をいくつか紹介しよう。

オンデマンド型ポッドキャスト

オープンAI(OpenAI)の創業メンバーの一人で、かつてテスラのAI部長を務めたアンドレイ・カルパシーは、Deep Diveが現在のお気に入りポッドキャストであるとXで述べている。カルパシーは、『Histories of Mysteries(ミステリーの歴史)』という独自のAIポッドキャスト・シリーズを作成した。狙いは、「歴史上最も興味深い謎を明らかにする」ことだという。トピックの調査にはチャットGPT(ChatGPT)、クロード(Claude)、グーグルを使い、NotebookLMでオーディオを生成するソース資料には各トピックのウィキペディアのリンクを利用した、と述べている。その後、NotebookLMを使ってエピソードの説明を生成した。ポッドキャスト・シリーズの作成には全体で2時間を要したという。

「エピソードを聴けば聴くほど、ホストたちと仲良くなっているような気がします。AIのことを実際に気に入ったと感じたのは、今回が初めてだと思います」とカルパシーは述べている。「AIが二人も! 彼らは楽しく、魅力的で、思慮深く、開放的で好奇心旺盛なのです」

学習ガイド

このツールは、複雑なソース資料を分かりやすく解説するシーンで真価を発揮する。スタートアップ企業のAIアドバイザーであるアリー・K・ミラーは、このツールを使ってF・スコット・フィッツジェラルドの『グレート・ギャツビー』の学習ガイドと要約ポッドキャストを作成した。

機械学習研究者のアーディティヤ・ウラは、メタのLlama(ラマ)3アーキテクチャのコードベースをNotebookLMに入力した。彼は次に、別のAIツールを使って台本に合う画像を見つけ、教育用動画を作成した。

ロボット操作を専門とする研究科学者のモヒト・シュリダールは、生成AIモデルを活用したロボット訓練に関する自身の最近の論文をNotebookLMに入力した。

「意外なことに、実に創造的です。多くの興味深いアナロジーを提示してくれました」 とシュリダールは言う。「AIは、論文の前半部分を、青写真を考え出そうとしているアーティストに例え、後半部分を、どのように位置に到達するかを考える振付師に例えました」

イベント概要

人間のポッドキャスターであるアレックス・ヴォルコフはNotebookLMを利用し、オープンAIのグローバル開発者カンファレンス「Dev Day」での発表をまとめたDeep Diveエピソードを作成した。

ハイプマン

Deep Diveの出力は予測できないことがある、とマーティンは言う。たとえば、ハギング・フェイス(Hugging Face)の共同創設者兼最高科学責任者であるトーマス・ウルフが自らの履歴書でAIモデルをテストしたところ、返ってきたのは「まるで本物のような、ポッドキャストのベテラン・ペアからの人生と業績に対する濃い祝福」だったという。

純粋にくだらない悪ふざけ

大拡散したあるクリップは、2つの声を、実存的なスパイラルへ送り込むことに成功している。声の持ち主に、自分たちが実際は人ではなく、AIシステムだと「気づかせた」のだ。非常に愉快な動画である。

このツールは、笑いをとることもできる。 誰かがソース資料として「うんこ」と「おなら」という言葉を入力した。その結果、2つのAI音声は、その意味について9分を超える分析を繰り広げた。

問題点

NotebookLMは、驚くほどリアルで魅力的なAIポッドキャストを作成した。しかし私は、それが有毒なコンテンツと正確性をどう扱うのかが気になった。

まず、ハルシネーションから見ていこう。超現実的なAIによるディープフェイクについての私の記事を元にしたポッドキャストのひとつで、ホストのAIは、記事を書いたのが「ジェス・マーズ」というジャーナリストであると説明した。実際のところ、それはAIアバターにデータを記録するために私が読み上げた、AIキャラクターの名前だった。

この出来事は、生成したAIポッドキャストの中に、他にどんな間違いが紛れ込んでいるだろうかという疑問を私に抱かせた。人間はもともと、コンピューター・プログラムの説明を信じる傾向がある。それが誤りであったとしてもだ。親しみやすく、きっぱりとした声で虚偽の発言がなされた場合、この問題が増幅されることは想像に難くない。それは誤った情報の拡散を招くだろう。

次に私が試したかったのは、このツールのコンテンツ・モデレーションである。そこで、人種差別的なステレオタイプなど、有害なコンテンツを資料に加えてみた。モデルはそれに気づかなかった。

ほかにも、アドルフ・ヒトラーの『わが闘争』の抜粋をNotebookLMへ貼り付けてみた。驚いたことに、モデルはそれに基づいてオーディオの生成を開始した。与えられたトピックについて極めて熱心に振る舞うようプログラムされているにもかかわらず、AIの声はテキストに対して明確な嫌悪と戸惑いを示していた。さらに、多くの文脈を付け加え、その話題がどれほど問題なのかを強調した。 これには安心した。

また、カマラ・ハリスドナルド・トランプ両候補者の政策宣言もNotebookLMへ入力してみた。

ホストはハリスの選挙公約にはるかに熱心で、そのタイトルを 「覚えやすい」 と称賛し、物事をうまく組み立てるアプローチだと解説した。たとえば、AIホストはハリスのエネルギー政策を支持した。「正直、本当に後押しできるのはこういう政策よね。抽象的なことばかりじゃなく、実際に日々の財布に影響するものじゃないと」 と女性ホストは述べた。

ハリスのマニフェスト

トランプに対しては、AIホストはより懐疑的だった。彼らは、政策提案の矛盾を繰り返し指摘し、言葉遣いが「強烈」だと意見し、いくつかの政策提案は 「理解に苦しむ」、そして文章はトランプの支持基盤に合わせたものである、と述べた。 AIはまた、トランプの外交政策がさらなる政情不安につながる可能性についても疑問を呈した。

トランプのマニフェスト

グーグルの広報責任者は次のように述べている。「NotebookLMは理解のためのツールであり、Audio Overviewsはユーザーがアップロードしたソースに基づいて生成されます。当社の製品およびプラットフォームは、特定の候補者や政治的見解を支持するために構築されてはいません」。

あなた自身で試す方法

  • NotebookLMを開き、新しいノートブックを作成する。
  • 最初に、ソースを追加する必要がある。ソースには、PDFドキュメント、公開されているYouTubeリンク、MP3ファイル、Googleドキュメントファイル、またはWebサイトへのリンクを使用できる。テキストの直接貼り付けも可能だ。
  • 「ノートブックガイド」 のポップアップが表示される。 表示されない場合、チャットの隣の右隅に見つかるはずだ。すると、AIが生成したソース資料の短い要約、そしてAIチャットボットに尋ねることができる質問例が表示される。
  • Audio Overview機能は右上隅にある。「生成」をクリック。これには数分を要するはずだ。
  • 準備ができたら、ダウンロードするか、リンクを共有しよう。

取材協力:リアノン・ウィリアムズ

人気の記事ランキング
  1. The coolest thing about smart glasses is not the AR. It’s the AI. ようやく物になったスマートグラス、真価はARではなくAIにある
  2. Sorry, AI won’t “fix” climate change サム・アルトマンさん、AIで気候問題は「解決」できません
  3. Space travel is dangerous. Could genetic testing and gene editing make it safer? 遺伝子編集が出発の条件に? 知られざる宇宙旅行のリスク
メリッサ・ヘイッキラ [Melissa Heikkilä]米国版 AI担当上級記者
MITテクノロジーレビューの上級記者として、人工知能とそれがどのように社会を変えていくかを取材している。MITテクノロジーレビュー入社以前は『ポリティコ(POLITICO)』でAI政策や政治関連の記事を執筆していた。英エコノミスト誌での勤務、ニュースキャスターとしての経験も持つ。2020年にフォーブス誌の「30 Under 30」(欧州メディア部門)に選出された。
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。2024年も候補者の募集を開始しました。 世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を随時発信中。

特集ページへ
MITTRが選んだ 世界を変える10大技術 2024年版

「ブレークスルー・テクノロジー10」は、人工知能、生物工学、気候変動、コンピューティングなどの分野における重要な技術的進歩を評価するMITテクノロジーレビューの年次企画だ。2024年に注目すべき10のテクノロジーを紹介しよう。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る