2016年、マイクロソフトは、顔認識の進歩に拍車をかけることを期待して、世界最大の顔データベースを公開した。「MS-Celeb-1M」と呼ぶこのデータベースには、10万人の有名人の顔を撮影した1000万枚の画像が入っていた。しかし「有名人」といっても、その定義は曖昧なものだった。
3年後、研究者のアダム・ハーベイ(Adam Harvey)とジュール・ラプラス(Jules LaPlace)がこのデータセットを精査したところ、ジャーナリスト、アーティスト、活動家、学者など、仕事のためにネット上で活動している多くの一般人が見つかった。彼らはみな、データベースへの収録に同意していなかったが、彼らの顔写真は「MS-Celeb-1M」データベースにとどまらず、その向こう側へと渡ってしまった。大量の顔写真を集めたこのデータベースは、フェイスブック、IBM、バイドゥ、そして中国最大級の顔認識技術大手で、中国警察にシステムを販売しているセンスタイム(SenseTime)などの企業が研究に利用していた。
ハーベイとラプラスの調査から間もなく、ジャーナリストからの批判を受けたマイクロソフトは、「研究は終了した」とだけ述べてデータセットを削除した。しかし、この事件がもたらしたプライバシーに関する懸念は、インターネット上の永遠の地に残っている。さらに、問題はこのケースだけではない。
かつて、Web上の画像やテキストをスクレイピングすることは、現実世界のデータを収集する先進的な手法と考えられていた。しかし今では、GDPR(欧州データ保護規則)などの法律や、データ・プライバシーや監視に対して社会の懸念が高まったことにより、この行為は法的にもリスクが高く、不適切なものになっている。その結果、人工知能(AI)研究者らは、スクレイピングによって作成したデータセットを撤回することが多くなった。
しかし、新しい研究によれば、一旦作成し、公開したデータセットを撤回しても、問題のあるデータの拡散や不正利用を防ぐ効果はほとんどないという。この研究チームは、顔写真や人物画像を含むデータセットのうち最もよく引用されているものを3つ(うち2つは撤回されたもの)選び、それぞれが1000本近い論文でどのようにコピーされ、使用され、別の目的で再利用されたかを追跡した。
「MS-Celeb-1M」の場合、コピーされたデータが第三者のサイトや、オリジナルの上に構築された派生データセットに残存していた。このデータで事前に学習させたオープンソースのモデルも容易に入手できる。さらに、このデータセットとその派生物は、撤回後6カ月から18カ月の間に発表された数百本の論文で引用されている。
デュー …
- 人気の記事ランキング
-
- AI companions are the final stage of digital addiction, and lawmakers are taking aim SNS超える中毒性、「AIコンパニオン」に安全対策求める声
- Promotion MITTR Emerging Technology Nite #32 Plus 中国AIをテーマに、MITTR「生成AI革命4」開催のご案内
- Anthropic can now track the bizarre inner workings of a large language model 大規模言語モデルは内部で 何をやっているのか? 覗いて分かった奇妙な回路
- This Texas chemical plant could get its own nuclear reactors 化学工場に小型原子炉、ダウ・ケミカルらが初の敷地内設置を申請
- Tariffs are bad news for batteries トランプ関税で米電池産業に大打撃、主要部品の大半は中国製