AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術

Noise-canceling headphones use AI to let a single voice through AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術

群衆の中にいる友人や、都会の喧騒の中にいるツアーガイドなど、騒がしい環境下で特定の声に集中したい際に役立つ新技術だ。 by Rhiannon Williams2024.05.27

現代の生活は騒がしい。それが嫌なら、ノイズキャンセリング・ヘッドフォンを使えば周囲の音を小さくできる。ただし、無差別に音が消えてしまうため、実際に聞きたい音を逃してしまうこともある。

ヘッドフォン向けの新型プロトタイプ人工知能(AI)システムは、こうした問題の解決を目的としている。「ターゲット・スピーチ・ヒヤリング(Target Speech Hearing)」と呼ばれるこのシステムは、他のすべての音を消しても、選択した人物の声だけは残す機能だ。

ターゲット・スピーチ・ヒヤリングは現在、概念実証段階となっているが、開発者は人気ブランドのノイズキャンセリング・イヤホンに組み込む交渉を進めているほか、補聴器にも利用できるよう取り組んでいると話す。

このプロジェクトに携わったワシントン大学のシャム・ゴラコタ教授は、「特定の人の声を聞き分けることは、我々がこの世界でコミュニケーションをとり、他人と交流していく上で不可欠な要素です」と言う。「しかし、たとえ聴力に問題がない場合でも、騒がしい状況下では特定の人の声に集中しにくい場合があります」。

同じ研究者たちは以前、赤ちゃんの泣き声、鳥のさえずり、アラームの音など、特定の音を認識してフィルタリングするというニューラル・ネットワークの訓練に成功している。しかし、人間の声を聞き分けるのはより高度な挑戦であり、より複雑なニューラル・ネットワークが必要となる。

コンピューティング能力とバッテリー持続時間が限定されているヘッドフォンで、AIモデルをリアルタイムで動作させる場合は、そのような複雑さが問題となる。この制約をクリアするには、小型でエネルギー効率の優れたニューラル・ネットワークが必要だった。そのため、研究チームは「知識蒸留」と呼ばれるAI圧縮手法を採用した。これは、何百万もの音声を用いて訓練した巨大AIモデル(「教師」)を使用してはるかに小さなモデル(「生徒」)を訓練し、同じ基準で動作とパフォーマンスを模倣させる手法だ。

次に、市販のノイズキャンセリング・ヘッドフォンに取り付けたマイクが捉えた周囲の雑音から、特定の音声パターンを抽出するよう「生徒」に教えた。

「ターゲット・スピーチ・ヒアリング」システムは、ヘッドフォン装着者がボタンを数秒押しながら、ターゲットとなる人の方を向いて話すと作動し始める。システムは 「登録 」プロセス中、両耳のヘッドフォンから音声サンプルを取り込み、録音されたサンプルを使用して音声特徴を抽出する。これで周囲に他の話し手がいたり、雑音がある場合でも、話し手の音声特徴を抽出できる。

これらの音声特徴がヘッドフォンとUSBケーブルで接続されたマイクロコントローラー・コンピューター上にある第2のニューラル・ネットワークに入力される。このネットワークは継続的に作動し、選択した音声をそれ以外の音声と分離し、聞き手に向けて再生する。いったん話し手がロックオンされると、ヘッドフォン装着者が話し手に背を向けても、その話し手の声が優先的に再生され続ける。システムが話し手の声をターゲットにした訓練データをより多く取得すればするほど、その声に対する分離能力は向上していく。

現時点では、このシステムは1人のターゲットとする話し手の声だけが大きく聞こえる場合にだけ成功するが、研究チームは方向や声の大きさといった条件を満たさない場合でも機能することを目標としている。

「騒々しい環境でたった1つの声を検知するのは非常に困難です」とマイクロソフトで音声とAIを研究しているセフィク・エムレ・エスキムズ上級研究員は言う(同研究員は今回の研究には関与していない)。「企業がこれを望んでいることは知っています」とエスキムズは話す。「もし実現できれば、特に会議のシナリオにおいてさまざまな応用が可能になります」。

カーネギーメロン大学言語テクノロジー研究所の研究者であるサミュエル・コーネル(この研究に関与していない)は、「音声分離研究は、実践的というより理論的になる傾向がありますが、この研究は間違いなく現実世界に応用可能です」と話す。「これは正しい方向への一歩だと思います。新風をもたらす研究です」。