ボー・リー(イリノイ大学アーバナ・シャンペーン校)

Bo Li ボー・リー(イリノイ大学アーバナ・シャンペーン校)

人工知能(AI)を欺こうとする「敵対的攻撃」に対抗するための新たな手法を考案し、AIをより堅牢なものにしようとしている。 by MIT Technology Review Editors2021.01.31

数年前、ボー・リーと彼女の同僚たちは、小さな黒と白のステッカーを落書きのようなパターンで停止標識に貼り付けた。ステッカーの配置は人間の目には無作為なものに見え、標識の文字を見えづらくするものではない。しかし、この配置は意図的に作られたもので、自動運転車が近づくと、そのビジョンシステムの核となるニューラル・ネットワークが、停止標識を時速45マイル(72キロメートル)の速度規制標識と誤読するようになっていた。

このような「敵対的攻撃」、つまり人間には無害に見えてもニューラル・ネットワークを騙してしまうな細工を入力データに施すことは以前にも試みられていた。だが、これまでの例は、ほとんどがデジタル的な操作を用いたものであった。例えば、人間の肉眼では違いが判別できないように、画像内の数ピクセルを変更するといった方法である。リーは、ニューラル・ネットワークを騙すことが現実世界でも可能であると最初に示した人々の1人だ。デジタル画像に加えられた細工を検出するために開発された方法は、物理的な物体に対しては機能しない。そのため、物理的な物体に施された細工をAIが検出するのは、より困難な課題となる。

リーの目標は、敵対的攻撃の可能性に関する自身の知識を利用して、AIをより堅牢なものにすることだ。

リーはまた、ニューラル・ネットワークを騙すために、形状や質感などの物理的な物体の特徴を微妙に変化させる方法も考案した。この変化も人間には知覚できない程度のものだが、画像認識アルゴリズムにとっては物体が見えなくなってしまうほどの変化となり得る。リーの目標は、敵対的攻撃の可能性に関するこうした知識を利用して、AIをより堅牢なものにすることだ。リーは、AIシステムを互いに対峙させ、あるニューラル・ネットワークを使って、別のニューラル・ネットワークの脆弱性を特定して攻撃させる訓練手法を提案している。この訓練プロセスを通じて対象とするネットワークの学習や構造上の欠陥を明らかにすることで、それらの欠陥に対応し、将来の敵対的攻撃から防御するための戦略を組み立てるのだ。

敵対的攻撃は、画像認識アルゴリズムだけでなく、他の種類のニューラル・ネットワークも対象となり得る。例えば、人間が認識できない程度に音声を微調整することで、音声アシスタントが聞き取った内容を誤って解釈するようにできる。リーの手法の中には、すでに商用アプリケーションで使われているものもある。IBMは自社の人工知能(AI)であるワトソンを保護するために、アマゾンはアレクサを保護するために利用している。そして、自動運転車を開発している企業数社が、自社の機械学習モデルの堅牢性を向上させるためにリーの手法を利用している。