音声制御式の情報端末はますます普及し、高性能になっている。グーグル、アップル、アマゾン、自動車メーカーやそのほか多くの企業が、自社の機器に音声制御機能を搭載している。この事実を、こうした機器を標的にする悪意ある攻撃者が見逃すはずがない。
音声で動作する機器を持つ人の多くは、機器が他の人の声に反応したり、外部の雑音を命令と解釈したりして異常な動作をしたという経験を持っているだろう。つまり、ハッカーが付近にあるスピーカーを用いて、機器に対して攻撃を試みる可能性があるということだ。しかしながら、攻撃者の命令はユーザーにも聞こえるはずなので、注意深くしていれば攻撃を容易に阻止できる。
ここで興味深い疑問がわく。人間の耳には聞こえない命令を用いて、音声制御式の端末を操作することは可能なのだろうか。
その疑問には、中国の浙江大学のグオミン・チャン(Guoming Zhang)とチェン・ヤン(Chen Yan)たちのチームの研究成果が答えてくれる。答えは「イエス」だ。研究チームは、超音波による命令でシリ(Siri)、Google Now(グーグル・ナウ)、アウディの音声制御式ナビゲーション・システムなどの情報端末を操作する「ドルフィン・アタック」と呼ばれるシステムを開発した。超音波による命令は、人間の耳には全く聞こえないので、重大な新しい脅威になると研究チームは述べている。
攻撃の原理は単純だ。電子機器に使われているマイクロホンは、可聴音を電子信号に変換するように設計されている。可聴音とは、人間の聴覚が検知できる限界と一般に認められている約2万ヘルツ以下の周波数を持つ音波のことである。
マイクロホン内部には、音波を受けると振動する変形可能な膜がある。膜の振動が内部回路の静電容量を変え、その結果、音波が電子的な信号に変換される。
元々の設計からして、マイクロホンの膜が超音波の周波数に対して特に感度が高いわけではない。また、いずれにせよ、より高い周波数の信号は電子機器が除去する。
しかし研究チームは、超音波の振幅を、普通の会話の周波数で変調するというトリックを使うことで、音声制御の電子機器を操作する方法を見い出した。つまり、超音波を搬送波(情報を載せて搬送するための波)として使おうというのだ。
実験の結果、マイクロホンの膜は、たとえ人間の耳には聞こえなくても、超音波の信号を受信できることが判明した。
このことは、超音波による命令で被害がもたらされる可能性があることを示唆している。研究チームは、アップルのアイフォーン、LGのネクサス(Nexus)5X、サムスンのノートS6エッジ、アマゾン・エコー、アウディのQ3ナビゲーション・システムやその他の機器に対し、上記の方法を試してみた。
機器の中には、アマゾン・エコーのようにあらゆる音声で作動する端末もあれば、特定の音声でのみ起動できるが、起動後はどんな音声でも作動するという端末もある。後者の場合は、多数の異なる音声を試して十分に似た音声を探し出すことで簡単に起動できる、と研究チームは述べている。
(似た声を持つ人たちは、お互いの音声制御のスマホを起動できるというのが一般的な見解になっている)。
研究チームは、サムスンのギャラクシーS6エッジを、超音波を発生できるスピーカーにつなげて、研究室内と背景雑音のある実環境内の両方で攻撃のテストを実施した。
テストの結果は恐るべきものだった。「完全に不可聴域であるため人間の耳には感知できないドルフィンアタックの命令を、機器の音声ハードウェアが受け取って、音声認識システムが認識できることがわかりました」と研究チームは言う。
ドルフィンアタックは、アイフォーン上でフェイスタイム(FaceTime)の通話を開始するようシリに促したり、グーグル・ナウにスマホを機内モードに切り替えさせたり、さらにはアウディの自動車に搭載されたナビゲーション・システムを操作することさえできた。
もっと高度なことをするように命令できることは明らかだ。「ここに挙げたのは、ほんの一部だと考えています」と研究チームは述べる。
音声制御機器を所有するセキュリティ意識の高いユーザーは、このことを知って心配になるだろう。悪意のあるユーザーが、こっそり電話をかけて会話を盗聴したり、スマホのスイッチを切ってデータを受信できないようにしたり、音声制御式の自動車のナビゲーション・システムを他の用途に使用したりする可能性を容易に想像できるからだ。
音声制御システムが高性能になるほど、脅威も大きくなり、懸念も高まる。たとえば、グーグルの最新のアシスタントは前世代のものよりもはるかに性能が高い。
研究チームによると、こうした脅威を緩和することは可能だという。最も明快な方法は、マイクロホンを設計し直して、超音波の搬送波に対する感度を低下させることだ。マイクロホンの再設計自体は容易だろう。しかし、すでに危険にさらされているスマホ、端末、自動車を所有している何百万人ものユーザーの助けにはならない。
既存ユーザーに対しては、ソフトウェアによる解決策が現実的だ。超音波による命令は自然な音声による信号と異なるいくつかの独特な特徴があるので、検知するのは容易なはずだ。そうしたシステムを開発するのはそれほど困難ではないだろうが、何百万人ものユーザーに行き渡らせるのは難しいだろう。
その一方で、この種の攻撃ができるような改造スマホを作り上げることは容易だ。つまり、世界中にある何百万台ものスマートデバイスが危険にさらされているということになる。
(参照:arxiv.org/abs/1708.09537: DolphinAtack: Inaudible Voice Commands:ドルフィンアタック——聞こえない音声命令))