自然な会話ができるチャットGPT新機能、一般開放を開始

OpenAI has released a new ChatGPT bot that you can talk to 自然な会話ができるチャットGPT新機能、一般開放を開始

オープンAIは一部ユーザーに対し、自然で流ちょうな会話ができるチャットGPTの新機能の提供を開始した。GPT-4oモデルを使用することで、声のトーンの違いを聞き分け、中断にも対応し、問い合わせにリアルタイムで答えられる。 by Melissa Heikkilä2024.08.01

オープンAI(OpenAI)は、音声で会話できる高度な人工知能(AI)チャットボットの提供を開始した。一部ユーザーは7月30日から使用可能だ。

この新しいチャットボットは、オープンAIが推進する新世代のAI搭載音声アシスタントを象徴するものだ。音声アシスタントはアップルのシリ(Siri)やアマゾンのアレクサ(Alexa)の流れを汲むものだが、それらよりもはるかに自然で流暢な会話ができるのが特徴。現状よりも有能なAIエージェントに向けた一歩と言える。新しい「チャットGPT(ChatGPT)」音声ボットは、さまざまな声のトーンの違いを聞き分け、中断にも対応し、問い合わせにリアルタイムで答えられる。また、より自然な発話になるように訓練されており、感情によって声を使い分ける。

この音声モードには、音声、テキスト、ビジョン機能を組み合わせたオープンAIの新しいGPT-4oモデルが使われている。フィードバックを集めるため、まずは有料版のチャットGPTプラス(ChatGPT Plus)の利用者のうち「少数のユーザー」を対象に音声チャットボットをリリースするが、今秋までにチャットGPTプラスの全ユーザーに提供する予定だという。チャットGPTプラスは月額20ドルで利用できる。オープンAIは、新たなチャットGPTボットの初回リリースの対象者に通知し、新モデルの使い方を説明するとしている。

5月に告知されていた今回の新たな音声機能は、当初の予定より1カ月遅れてリリースされることになった。オープンAIによれば、望ましくないコンテンツを検知して拒否するなど、安全性確保のための機能の改善にまだ時間が必要だという。また同社は、数百万のユーザーがリアルタイムで応答を受けられるようにするためのインフラを準備中だと説明した。

オープンAIは、モデルに欠陥がないかを徹底的に調べる100人超の外部レッドチームとともに、モデルの音声機能をテストしたと述べている。同社によると、29カ国から45言語のテスターが関わったという。

また、モデルには安全性確保の対策を講じているとしている。たとえば、モデルを使って音声のディープフェイクが作られるのを防ぐため、声優に協力を仰いで4種のプリセット音声を用意した。GPT-4oが、それ以外の人間の声を真似たり生成したりすることはない。

オープンAIはGPT-4oを最初に公開した際、俳優のスカーレット・ヨハンソンの声によく似た音声「スカイ(Sky)」の使用をめぐって反発を買った。ヨハンソンは声明の中で、オープンAIがヨハンソンの声をモデルに使う許可を求めてきたが、断ったと説明した。ヨハンソンは、自分の声に「ゾッとするほど似ている」モデルのデモの音声を聞いてショックを受けたという。オープンAIは、ヨハンソンの声は使用していないとしているが、スカイは現在利用できないようになっている。

オープンAIはまた、著作権侵害の疑いで複数の訴訟にも巻き込まれている。同社は、音楽をはじめ、著作権で保護された音声を生成するリクエストを認識してブロックするフィルターを採用したといい、法に違反したり、有害なコンテンツを生成したりするのを防ぐため、テキストベースのモデルに採用しているのと同じ安全性メカニズムをGPT-4oにも適用したという。

オープンAIは将来的に、映像や画面共有などさらに高度な機能を搭載し、AIアシスタントの能力を高めていく計画だ。5月のデモでは、社員がスマートフォンのカメラを紙片に向け、AIに一緒に数式を解いてほしいと頼んだ。また、コンピューターの画面を共有し、コーディングの問題を解決するためモデルに支援を依頼した。オープンAI によれば、以上の機能は現時点では利用できないが、いずれ使えるようになるという。期日は発表されていない。