Apple researchers explore dropping “Siri” phrase & listening with AI instead

大規模言語モデルで「ヘイ、シリ」不要に、アップルが研究論文

アップルの研究チームは、「ヘイ、シリ」というトリガーフレーズを使わなくても、ユーザーがiPhoneに話しかけていることをAIモデルで検知できるかどうか調査し、有望な結果が得られたとする研究論文を発表した。 by James O'Donnell2024.03.25

3月22日に発表された論文によると、アップルの研究チームは、ユーザーがiPhone（アイフォーン）などのデバイスに話しかけていることを人工知能（AI）を使って検知することで、「ヘイ、シリ（Hey Siri）」といったトリガーフレーズの技術的な必要性をなくせるかどうかを探っている。

アーカイブ（arXiv）にアップロードされた査読前論文において、研究チームはスマートフォンによって捉えられた発話データと、バックグラウンドノイズの音響データの両方を使って大規模言語モデルを訓練し、人々がデバイスに助けを求めていることを示すパターンを探した。このモデルは、オープンAI（OpenAI）の「GPT-2」を部分的に利用して構築された。「GPT-2は比較的軽量で、おそらくスマートフォンのようなデバイスでも動作させることができるからである」と、研究チームは論文で述べている。この論文では、モデルの訓練に使用された129時間分以上のデータと、追加のテキストデータについて説明しているが、訓練用データセットに使用された録音データのソースは明らかにしていない。リンクトイン（LinkedIn）のプロフィールによると、7人の論文執筆者のうち6人がアップルに所属しており、その中の3人が同社のSiriチームで働いている（7人目の執筆者は、アップルでのインターンシップ中にこの論文に関連する研究をした）。

論文によれば、有望な結果が得られたという。このモデルは、音声のみ、またはテキストのみのモデルよりも正確な予測ができた。また、モデルの規模が拡大するにつれ、さらに性能が向上した。アップルが研究課題を探求するだけでなく、トリガーフレーズである「ヘイ、シリ」の廃止を計画しているかどうかは不明である。

アップルとこの論文の研究チームにコメントを求めたが、どちらもすぐに応答はなかった。

現在、Siriは少量の音声のみを保持することで機能しており、トリガーフレーズを聞くまでは録音を始めたり、ユーザーのプロンプトに答える準備を開始したりしない。「ヘイ、シリ」のプロンプトをなくすことで、デバイスが「常に聞いている」ことに関する懸念が増大する可能性があると、スタンフォード大学の人間中心AI研究所（Human-Centered AI Institute）でプライバシーとデータ政策のフェローを務めるジェン・キング博士は述べる。

アップルが音声データを扱う方法については、以前からプライバシー擁護者たちによる監視を受けてきた。2019年にはガーディアン紙の報道によって、アップルで品質管理を担当する請負業者がSiriのデータを扱う際に、iPhoneから収集されたプライベートな音声を定期的に聞いていたことが明らかになった。その中には、医師と患者の間で交わされたセンシティブな会話も含まれていた。その2年後にアップルは、デバイスに保存するデータの量を増やしたり、録音データをSiriの改善に使用することをオプトアウトできるようにしたりするなどのポリシー変更によって、この問題に対応した。2021年にはカリフォルニア州で、Siriが起動されていないときでも機能が有効になっているとして、アップルを相手取った集団訴訟が提訴されている。

キング博士によれば、「ヘイ、シリ」プロンプトはユーザーにとって重要な役割を果たしているという。このフレーズは、デバイスがいつ聞き耳を立てているのか知るための手段を提供しており、廃止することで利便性は向上するかもしれないが、デバイスの透明性が低下する可能性があると、同博士はMITテクノロジーレビューに語った。今後、トリガーフレーズが廃止され、その代わりにAIアシスタントが関与していることを示す何らかの他のシグナルが採用されるかどうかということについては、この研究論文では詳しく触れられていない。

「企業がそのような形のやり取りを義務づけるかどうかは懐疑的です」と、キング博士は言う。

この論文は、AI競争においてアマゾンやグーグル、フェイスブックなど他のテック大手に後れをとっていると見なされているアップルが、自社製品により多くのAIを組み込もうとしていることを示す、最近の多くの兆候の1つである。ベンチャービート（VentureBeat）が最初に報じたニュースによると、アップルはテキストと画像を扱うことができる生成（ジェネレーティブ）AIモデル「MM1」の構築を進めている。これは、オープンAIの「ChatGPT（チャットGPT）」や、その他の大手テック企業の多くのチャットボットに対する同社の回答となるだろう。一方、ブルームバーグの報道によれば、アップルはグーグルのAIモデル「Gemini（ジェミニ）」をiPhoneに搭載することについて同社と協議している。また、バイドゥ（Baidu：百度）とも、同社のAI製品の使用について協議したことを、3月22日にウォール・ストリート・ジャーナル紙が報じた。

人気の記事ランキング

ジェームス・オドネル [James O'Donnell]米国版 AI／ハードウェア担当記者: 自律自動車や外科用ロボット、チャットボットなどのテクノロジーがもたらす可能性とリスクについて主に取材。MITテクノロジーレビュー入社以前は、PBSの報道番組『フロントライン（FRONTLINE）』の調査報道担当記者。ワシントンポスト、プロパブリカ（ProPublica）、WNYCなどのメディアにも寄稿・出演している。