KADOKAWA Technology Review
×
始めるならこの春から!年間サブスク20%オフのお得な【春割】実施中
AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術
Stephanie Arnett/MITTR | Public Domain, Envato
Noise-canceling headphones use AI to let a single voice through

AIで「聞きたい声だけ」聞ける、ノイズキャンセリング新技術

群衆の中にいる友人や、都会の喧騒の中にいるツアーガイドなど、騒がしい環境下で特定の声に集中したい際に役立つ新技術だ。 by Rhiannon Williams2024.05.27

現代の生活は騒がしい。それが嫌なら、ノイズキャンセリング・ヘッドフォンを使えば周囲の音を小さくできる。ただし、無差別に音が消えてしまうため、実際に聞きたい音を逃してしまうこともある。

ヘッドフォン向けの新型プロトタイプ人工知能(AI)システムは、こうした問題の解決を目的としている。「ターゲット・スピーチ・ヒヤリング(Target Speech Hearing)」と呼ばれるこのシステムは、他のすべての音を消しても、選択した人物の声だけは残す機能だ。

ターゲット・スピーチ・ヒヤリングは現在、概念実証段階となっているが、開発者は人気ブランドのノイズキャンセリング・イヤホンに組み込む交渉を進めているほか、補聴器にも利用できるよう取り組んでいると話す。

このプロジェクトに携わったワシントン大学のシャム・ゴラコタ教授は、「特定の人の声を聞き分けることは、我々がこの世界でコミュニケーションをとり、他人と交流していく上で不可欠な要素です」と言う。「しかし、たとえ聴力に問題がない場合でも、騒がしい状況下では特定の人の声に集中しにくい場合があります」。

同じ研究者たちは以前、赤ちゃんの泣き声、鳥のさえずり、アラームの音など、特定の音を認識してフィルタリングするというニューラル・ネットワークの訓練に成功している。しかし、人間の声を聞き分けるのはより高度な挑戦であり、より複雑なニューラル・ネットワークが必要となる。

コンピューティング能力とバッテリー持続時間が限定されているヘッドフォンで、AIモデルをリアルタイムで動作させる場合は、そのような複雑さが問題となる。この制約をクリアするには、小型でエネルギー効率の優れたニューラル・ネットワークが必要だった。そのため、研究チームは「知識蒸留」と呼ばれるAI圧縮手法を採用した。これは、何百万もの音声を用いて訓練した巨大AIモデル(「教師」)を使用してはるかに小さなモデル(「生徒」)を訓練し、同じ基準で動作とパフォーマンスを模倣させる手法だ。

次に、市販のノイズキャンセリング・ヘッドフォンに取り付けたマイクが捉えた周囲の雑音から、特定の音声パターンを抽出するよう「生徒」に教えた。

「ターゲット・スピーチ・ヒアリング」システムは、ヘッドフォン装着者がボタンを数秒押しながら、ターゲットとなる人の方を向いて話すと作動し始める。システムは 「登録 」プロセス中、両耳のヘッドフォンから音声サンプルを取り込み、録音されたサンプルを使用して音声特徴を抽出する。これで周囲に他の話し手がいたり、雑音がある場合でも、話し手の音声特徴を抽出できる。

これらの音声特徴がヘッドフォンとUSBケーブルで接続されたマイクロコントローラー・コンピューター上にある第2のニューラル・ネットワークに入力される。このネットワークは継続的に作動し、選択した音声をそれ以外の音声と分離し、聞き手に向けて再生する。いったん話し手がロックオンされると、ヘッドフォン装着者が話し手に背を向けても、その話し手の声が優先的に再生され続ける。システムが話し手の声をターゲットにした訓練データをより多く取得すればするほど、その声に対する分離能力は向上していく。

現時点では、このシステムは1人のターゲットとする話し手の声だけが大きく聞こえる場合にだけ成功するが、研究チームは方向や声の大きさといった条件を満たさない場合でも機能することを目標としている。

「騒々しい環境でたった1つの声を検知するのは非常に困難です」とマイクロソフトで音声とAIを研究しているセフィク・エムレ・エスキムズ上級研究員は言う(同研究員は今回の研究には関与していない)。「企業がこれを望んでいることは知っています」とエスキムズは話す。「もし実現できれば、特に会議のシナリオにおいてさまざまな応用が可能になります」。

カーネギーメロン大学言語テクノロジー研究所の研究者であるサミュエル・コーネル(この研究に関与していない)は、「音声分離研究は、実践的というより理論的になる傾向がありますが、この研究は間違いなく現実世界に応用可能です」と話す。「これは正しい方向への一歩だと思います。新風をもたらす研究です」。

人気の記事ランキング
  1. Promotion MITTR Emerging Technology Nite #32 Plus 中国AIをテーマに、MITTR「生成AI革命4」開催のご案内
  2. AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
  3. What is vibe coding, exactly? バイブコーディングとは何か? AIに「委ねる」プログラミング新手法
  4. Tariffs are bad news for batteries トランプ関税で米電池産業に大打撃、主要部品の大半は中国製
リアノン・ウィリアムズ [Rhiannon Williams]米国版 ニュース担当記者
米国版ニュースレター「ザ・ダウンロード(The Download)」の執筆を担当。MITテクノロジーレビュー入社以前は、英国「i (アイ)」紙のテクノロジー特派員、テレグラフ紙のテクノロジー担当記者を務めた。2021年には英国ジャーナリズム賞の最終選考に残ったほか、専門家としてBBCにも定期的に出演している。
▼Promotion
MITTRが選んだ 世界を変える10大技術 2025年版

本当に長期的に重要となるものは何か?これは、毎年このリストを作成する際に私たちが取り組む問いである。未来を完全に見通すことはできないが、これらの技術が今後何十年にもわたって世界に大きな影響を与えると私たちは予測している。

特集ページへ
日本発「世界を変える」U35イノベーター

MITテクノロジーレビューが20年以上にわたって開催しているグローバル・アワード「Innovators Under 35 」。世界的な課題解決に取り組み、向こう数十年間の未来を形作る若きイノベーターの発掘を目的とするアワードの日本版の最新情報を発信する。

特集ページへ
フォローしてください重要なテクノロジーとイノベーションのニュースをSNSやメールで受け取る