IBM「顔写真無断使用」報道、背景にAI業界と一般人とのギャップ
NBCは3月12日、興味深い見出しで、ある記事を公開した。「顔認識の『汚れた小さな秘密』:何百万ものオンライン上の写真が同意なしに無断収集されている(Facial recognition’s ‘dirty little secret’: Millions of online photos scraped without consent)」という記事だ。MITテクノロジーレビューは顔認識アルゴリズムに関する記事で、NBCの記事へのリンクを張ったが、改めて考えてみる価値がありそうだ。
NBCの記事は、より公正な顔認識アルゴリズムを開発することを目的に、IBMが最近公開した100万枚の顔写真のデータセットに焦点を当てている(IBMのデータセットについてはすでに別の記事に書いている)。データセットに含まれている顔写真は、オンライン写真共有サイト「フリッカー(Flickr)」から、被写体や撮影者の許可なく直接収集されたものであることが、NBCの取材で明らかになっている。
こうした行為をいかがわしく、また気味悪く感じる人がいる一方で、何の問題もない行為だと捉える人もいるはずだ。今回のニュースによって露呈したことは、「汚れた小さな秘密」というよりもむしろ、一般大衆とAIコミュニティの間に存在する文化的なギャップだといえる。
実際、業界内部の人間から見れば、IBMは常軌を逸したことは何もしていない。人工知能(AI)研究者らは、大量の学習データを必要とし、進化を続ける機械学習アルゴリズムを訓練するため、いつでもインターネット上のさまざまな場所からデータを収集している。たとえばインスタグラムは、画像データの一般的な収集源である。ハッシュタグはたいてい写真の内容と都合よく一致しており、極めて容易にラベル付きデータを生成できる。ニューヨーク・タイムズ紙やウォール・ストリート・ジャーナルの記事もまた、よく練られ、整理・編集された文章の源として一般的だ。テクノロジー、ビジネス、スポーツといったトピック別に分類されているのでなおさら好都合だ。
実際、一般に利用可能な情報源からデータを収集することは業界では普通のことなので、たいていのデータサイエンスや機械学習分野においては基礎的なスキルとして(倫理もなしに)教育される。一方でテック業界の多くのプラットフォームは、データに直接アクセスできるAPIを提供することにより、上記のようなデータ収集を歓迎するような設計になっている。最近まで、そうした行為は何のためらいもなく実施されていた(フェイスブックが問題になるまでは)。
無断でのデータ収集が良いか悪いかを論じているわけではない。そうした手法が、完全に良心的に、あるいは正当に実践されることもある(「深層学習の終わりの始まり、arXiv投稿論文に見るAI研究のトレンド」を参照)。結局、状況によりけりなのだ。IBMに関する今回の記事はむしろ、テック業界に対し、自分のデータの使われ方についての大衆の認識や、急速に発展するテクノロジー自体に歩調を合わせるように、文化規範や標準的な慣行を適応させる必要性を強調しているのだ。
「今日では、5年前や10年前には人々が気づいていなかったような方法で、私たち自身のデータが使われているのです」と語るのは、「責任あるAI」分野の世界的第一人者であるアクセンチュア・アプライド・インテリジェンス( Accenture Applied Intelligence)のラムマン・チョードゥリー博士だ。「私たち(大衆)は、存在もしない能力に同意することなどできません」。
言い方を変えれば、かつては人々のデータを無断収集することは実行可能な行為であり、公開されている限りは個人のデータ使用に十分な合意があったのかもしれない。しかし、AIの出現と、従来になかった規模のシリコンバレーのデータ独占や収益化により、均衡はすっかり崩れてしまった。テクノロジーを扱う者は、テクノロジーとともに変化し、自身の行為には、しっかりと事情を説明した上での、幅広い社会的合意がなされておくようにする責任を負っている。
データ・プライバシーのグレーゾーンでデータの扱いに苦労している人々への、チョードゥリー博士からのヒントがある。あなたの扱うデータが、それが元々生成され、共有された際の精神に沿うものなのかを考えてみよう。もしあなたが、本来の意図から完全に逸脱した方法でデータを利用しているのなら、その手を止め、考え直さなければならない。