Machine Vision’s Achilles’ Heel Revealed by Google Brain Researchers

精度は人間以上でも
顔認識を騙すのは簡単

認識精度は人間以上になった画像認識アルゴリズムは、「かく乱画像」と呼ばれる攻撃手法には弱く、人間は騙せなくても機械だけを誤認させる攻撃が可能であることが研究で明らかになった。 by Emerging Technology from the arXiv2016.07.23

マシン・ビジョンの登場は、現代科学の最も目覚ましい進歩のひとつだ。最近の2、3年間で、新世代の機械学習テクノロジーはコンピューターに視認する能力を与えた。

すでに機械は顔認識と物体認識で人間の能力を上回っており、運転や監視など、視覚による人間の作業を補助したり置き換えたりしている。マシン・ビジョンは人間を超えているのだ。

だが、問題もある。マシン・ビジョンの研究者は、新手法には気になる欠点があることに気付いていた。マシン・ビジョンのアルゴリズムには改変された画像（人間には何でもない点にしか見えない）で騙せてしまうアキレス腱があるのだ。

「かく乱画像」（adversarial image）と呼ばれる改変画像は、マシン・ビジョンの深刻な脅威だ。Google Brainのアレクセイ・クラーキン上級ソフトウェアエンジニアとサミー・ベンジオ研究員、オープンAI（非営利のAI研究企業）のイアン・グッドフェロー研究員は「顔認識分野でのかく乱画像（人の顔に非常に些細なマーキングを施した画像）は、人間には誰の顔か正しく判別できても、機械学習システムには別人と認識されます」と述べた。

マシン・ビジョンは誕生から間もなく、かく乱画像の正体はあまりわかっていない。かく乱画像を簡単に生成する方法、なぜマシン・ビジョンが騙されるか、どうすれば騙されないか、誰もわからなかった。

今回、クラーキン上級ソフトウェアエンジニアの研究チームは、かく乱画像を初めて体系的に研究し、マシン・ビジョン・システムがかく乱画像による攻撃にどの程度脆弱かを示した。

研究チームが題材に選んだのがマシン・ビジョン研究用の標準的データベース「イメージネット」（何が写っているかを分類した画像データベース）だ。マシン・ビジョン・アルゴリズムの開発で使われる精度測定の標準的な手法では、まずデータベースの一部（たとえば75％）で機械学習を訓練し、学習の成果を訓練に使わなかった画像（たとえば残りの25％）をどれだけ正確に分類できたかを測る。

マシン・ビジョンの精度は、アルゴリズムが正しく分類できた回数で測定される。マシン・ビジョンが見る画像には複数のタグが付けられており、たとえば上の写真が「メグロヒヨドリ」「鳥」とタグ付けされているとき、マシン・ビジョンが自信のある順に上位5つの答えを並べたときに正解が含まれる回数を「トップ5精度」、最上位の答えの正解数を数えた場合を「トップ1精度」と呼ぶ。逆に、正解がない頻度を上位5つや最上位で数えた場合は「トップ5エラー率」や「トップ1エラー率」と呼ぶ。

現在、最も高精度なマシン・ビジョン・システムはグーグルの「インセプションv3」アルゴリズムで、トップ5エラー率は3.46％で、人間で同じテストをした場合のトップ5エラー率約5％より高い。インセプションv3は超人的なのだ。

研究チームはニューラルネットワークが情報を処理して特定の分類に画像を照合させる、画像認識のアイデアを逆手に取ることにした。まず照合に必要な情報量を「交差エントロピー」と定義し、照合の困難さを示す尺度にした。その上で研究チームは、交差エントロピーを最大化するようにイメージネットの画像5万枚を改変し、かく乱画像のデータベースを作った。使われたのは3つのアルゴリズムだ。

第1のアルゴリズムは、交差エントロピーが最大化するように画像に小さな変化を加える。第2のアルゴリズムでは、小さな変化をさらに繰り返して画像を改変する。どちらのアルゴリズムも、処理された画像は、正確には分類しにくくなる。「これらの手法が引き起こすのは、ある種の犬ぞり用の犬を、別の種類の犬ぞり用の犬に間違えるようなつまらない分類ミスです」と研究員がいう程度には交差エントロピーが増す。

第3のアルゴリズムは、ずっと賢いアプローチを取る。マシン・ビジョン・システムを正しい分類としてはあり得ない特定の分類ミスに誘導するように画像を改変するのだ。「あり得ない分類とは、普通は真の分類との類似性が非常に低いため、この攻撃手法では、たとえば犬を飛行機と間違えるような面白い間違いを引き起こします」と研究チームは述べている。

その上で研究チームは、グーグルのインセプションv3アルゴリズムが5万枚のかく乱画像をどれだけ正確に分類できるかテストした。

実験結果は興味深い。第1と第2の単純なアルゴリズムは、トップ5精度とトップ1精度を著しく低下させた。一方で、最も強力なアルゴリズムである第3のアルゴリズムは、5万枚すべての画像について、マシン・ビジョンの精度をゼロに急落させ、あり得ない分類に誘導させた。（研究チームはこのアルゴリズムで分類ミスへの誘導がどれだけ上手くいったかは述べていない）

この実験結果では、かく乱画像が深刻な脅威だとしても、かく乱画像によってマシン・ビジョンを誤認させる手法が実用的ではない可能性もある。ここまでの検証では、かく乱画像をマシン・ビジョン・システムに直接入力しており、攻撃者の意図通り、マシン・ビジョンを騙せることの証明にはならないからだ。

実世界では、撮影するカメラによって画像は常に改変される。したがって、攻撃者がかく乱画像を作ってもカメラのノイズなどで中和されてしまえば、マシン・ビジョンは攻撃者の意図通りには誤認しなくなる。かく乱画像の脅威を知るには、かく乱用のアルゴリズムが、実世界で起きる画像変換を経ても、攻撃意図を保てるか、という別の疑問が生じるのだ。

そこで研究チームは、全てのかく乱画像とオリジナル画像を印刷し、Nexus 5スマホで撮影してカメラやスマホの写真アプリによって変換されたかく乱画像をマシン・ビジョン・システムに入力した。

第3のアルゴリズムは、実際のカメラで撮影するとかく乱の目的を達成しにくくなったが、第1と第2のアルゴリズムはかなりよく持ちこたえた、と研究チームは評価している。つまり、かく乱画像生成アルゴリズムは、実世界で通用する本物の脅威なのだ。

「元のニューラルネットワークで学習済みの画像からかく乱画像を生成した場合、その大部分は、カメラ経由で分類アルゴリズムに入力されても誤って分類された」

この研究は、マシン・ビジョンのアキレス腱に注目している点で興味深い。また、多くの後継研究を生み出すだろう。研究チームは、他の視覚システム用のかく乱画像も開発し、攻撃の効果を高めたいとしている。

研究内容のすべては、コンピュータ・セキュリティの関係者を驚かせるだろう。マシン・ビジョン・システムは顔認識で人間より優れており、スマホや玄関ドアのロック解除からパスポート管理、銀行口座の生体認証まで、応用範囲を広げると思われている。しかし、研究チームは、顔認識システムを簡単に騙せる可能性を示している。

最近の2、3年はマシン・ビジョン・システムの精度向上の話ばかりだった。この研究でマシン・ビジョンを騙すのがどれだけ簡単なのかがわかった。

タグ	イメージネットインセプションv3 かく乱画像コンピュータービジョンマシン・ビジョン
クレジット	Emerging Technology from the arXiv

精度は人間以上でも 顔認識を騙すのは簡単

関連ページ

精度は人間以上でも
顔認識を騙すのは簡単