オープンAI(OpenAI)は、人工知能(AI)モデルとのより自然な会話を可能にする「チャットGPT(ChatGPT)」の新機能「高度な音声モード(Advanced Voice Mode)」のユーザーを拡大する。高度な音声モードでは、ユーザーがAIモデルの応答中に割り込むことができるほか、AIモデルが声のトーンに基づいてユーザーの感情を感知・解釈し、それに応じて応答を調整することもできる。
これらの機能は、オープンAIが「GPT-4o」を発表した5月にデモ動画で紹介されたが、7月まで実装されず、その後、一部の招待ユーザーに限定公開された(少なくとも最初は、このモデルには安全上の問題があったようだ。オープンAIは5月、ワイアード(WIRED)誌の複数の記者に高度な音声モードへのアクセスを許可したが、同誌によるとオープンAIは「安全上の懸念を理由に、翌朝にはそれを取りやめた」という)。 高度な音声モードを試すことができたユーザーの多くは、このモデルが驚くほど速く、動的で、リアルな音声アシスタントであると評している。それゆえ、ユーザーが制限されていることに、オープンAIの他の一部のユーザーは特に不満を感じていた。
オープンAIは9月24日、新しい音声モードの提供対象を拡大することを発表した。発表のポイントを以下で紹介しよう。
何ができるのか?
チャットGPTは現在、有料版ユーザーに標準音声モードを提供しているが、その対話にはぎこちない点がある。たとえば、モバイルアプリでは、モデルの長々とした返答を声で中断できず、中断するには画面をタップしなければならない。新バージョンではその点が修正されており、また、ユーザーの声から読み取った感情に基づいて反応を調整できるとされている。チャットGPTの他のバージョンと同様に、ユーザーは自身に関する事実をモデルに覚えてもらうことで、音声モードをパーソナライズすることもできる。また、新しいモードでは、英語以外の言語の単語の発音も改善されている。
AI分野の投資家であるアリー・ミラーは、8月にこのツールのデモ動画を投稿し、オープンAIによる紹介動画と同様に、このモデルが高速であり、ユーザーのニーズに合わせて音声のアクセント、トーン、話す内容を調整することに長けていることを強調した。
I’m testing the new @OpenAI Advanced Voice Mode and I just snorted with laughter.
In a good way.
Watch the whole thing ⬇️ pic.twitter.com/vSOMzXdwZo
— Allie K. Miller (@alliekmiller) August 2, 2024
今回のアップデートでは、新しい音声も追加された。GPT-4oの発表直後、オープンAIは、デモ動画に登場する「スカイ(Sky)」という女性の声が、映画『her/世界でひとつの彼女』で主人公が恋する人工知能型OSを演じたスカーレット・ヨハンソンの声と似ているとして批判を受けた。オープンAIはその後、その音声を削除した。そして今回、アーバー(Arbor)、メープル(Maple)、ソル(Sol)、スプルース(Spruce)、ヴェール(Vale)という5つの新しい音声をリリースした。これらは標準音声モードと高度な音声モードの両方で利用できるようになる。MITテクノロジーレビューはまだこれらの音声を聞いていないが、オープンAIによると、これらの音声は世界中のプロの声優を使って作られたという。「私たちは何十人もの声優と面接をして、温かみがあり、親しみやすく、好奇心旺盛で、豊かな声の質感とトーンを備え、人々が何時間でも会話を楽しめるような声質を持つ人を見つけました」とオープンAIの広報責任者は話す。
誰がいつアクセスできるようになるのか?
オープンAIは、今のところ、月額20ドルのプレミアム版である「プラス(Plus)」ユーザーと、メッセージ数の上限が高い月額30ドルの「チーム(Team)」ユーザーに高度な音声モードへのアクセスを提供している。次に高度な音声モードにアクセスできるようになるのは、「エンタープライズ(Enterprise)」プランと「エデュ(Edu)」プランのユーザーだ。ただし、その正確な時期はまだ明確にしていない。オープンAIの広報責任者は、「PlusとTeamの全ユーザーを対象に段階的に展開し、EnterpriseとEduのユーザーには来週以降展開する」と述べており、これらのプランの全ユーザーが高度な音声モードにアクセスできるようになる期日を明示していない。チャットGPTアプリのメッセージによると、すべてのPlusユーザーは 「秋の終わり」までにアクセスできるようになるという。
地理的な制限も設けられている。欧州連合(EU)、英国、スイス、アイスランド、ノルウェー、リヒテンシュタインでは、この新機能はまだ利用できない。
高度な音声モードを無料ユーザーに提供する予定は当面ないという(標準モードは、すべてのユーザーが引き続き利用できる)。
安全性確保のためにどのような措置がとられているのか?
オープンAIが7月の最初のリリース時に述べ、今回再び強調したように、高度な音声モードは、「計45の言語で、29地域の」外部の専門家たちによって安全性がテストされているという。GPT-4oのシステムカードには、暴力的または性的なスピーチの生成、無断での声の模倣、著作権で保護されたコンテンツの生成といった問題を、基礎となるモデルがどのように処理するかが詳細に記されている。
とは言うものの、オープンAIのモデルはオープンソースではない。訓練データや、AIがどのように応答を生成するかを規定する「モデルの重み」に関する透明性が高いモデルに比べると、オープンAIのクローズドソースのモデルは、独立した研究者が安全性、バイアス、害の観点から評価することが難しい。