「データは嘘をつかない」とよく言われる。しかし、私の経験ではそんなことはない。私にとっては、データは必ずと言っていいほど嘘をついている。「健康的な肌」とグーグルで画像検索すると色白の女性しか表示されず、「黒人の女の子」と検索するといまだにポルノが引っかかる。「セレブA(CelebA)」の顔データセットには「大きな鼻」と「大きな唇」というラベルがあるが、それらのラベルは私のような肌の黒い女性の顔に偏って割り当てられている。「イメージネット(ImageNet)」で訓練された人工知能(AI)モデルによるラベル付けでは、私は「悪人」「薬物中毒者」「負け犬」になる。皮膚がんを検出するためのデータセットには、肌が黒い人のサンプルが欠如している。
白人至上主義はしばしば暴力的な形で現れる。混雑したウォルマートや教会での銃撃事件、憎悪に満ちた非難の発言や路上での衝突などだ。しかし、先ほどの例のように、もっと分かりにくい形で現れることもある。AIシステムを構築している人たちが、データの収集方法からデータセットの定義方法や使用方法にいたるまで、あらゆるものに白人至上主義による明白な嘘が埋め込まれることを許容し続けているのだとすれば、憂慮すべきことである。
白人以外の人々は外れ値ではない。世界的に見れば、有色人は多数派であり、この事実は当分の間、変わることはないだろう。白人のために極めて特化して構築されたデータセットが示すのは作為的な現実であり、自然な現実ではない。私の経験してきたことが欠落している状態で測られたデータを正確だと見なすことによって、私は不快であるだけでなく、現実の危険に晒されているのだ。
不正直なデータ
「汚れたデータ、当たらない予測(Dirty Data, Bad Predictions)」と題された研究論文で、筆頭著者であるラシダ・リチャードソンは憂慮すべきシナリオを記している。「腐敗していたり、人種的な偏見があったり、または違法な」行為に関与したりしていることが疑われるか、確認されている警察管区のデータが、警察官が取り締まりの意思決定を支援するための新しい自動化システムの開発に使われ続けているのだ。
予測型取り締まりツールが目指しているのは、犯罪が起こる前に警察官を犯罪現場に送り込むことである。前提としてあるのは、以前に逮捕者が出たことのある場所は、将来的に違法行為が起こる可能性と相関関係があるということだ。リチャードソンが指摘しているのは、前提となる最初の逮捕が人種差別的な動機に基づいていたり違法であったりしても、あるいは「制度的なデータ操作、警察の腐敗、警察の報告書の改ざん、住民からの略奪、証拠品の仕込み、恐喝、憲法に違反する捜査、その他の腐敗行為を含む暴力行為」によるものであった場合でも、この前提は疑問視されないままだということだ。最悪の行動を取る警察署のデータでさえも、予測取り締まりツールの基となる情報としていまだに使用されている。
タンパベイ・タイムズ紙が報じているように、この方法では、マイノリティや低所得者層に対する更なる警察の嫌がらせが、アルゴリズムで正当化されることになってしまう。新しいシステムを訓練するのにこのような欠陥のあるデータを使用すると、警察の文書化された不正行為がアルゴリズムに組み込まれる。その結果、嫌がらせの被害を最も受けやすい人々を恐怖に陥れている警察の既知の行為が、今後も永続化してしまうことになるのだ。
極端に悲観的なことを言っているように聞こえるかもしれない。しかし、実際には機械学習ではこうしたことが普通に起こっている。これが、現在私たちが疑問を抱くことなく「正しい情報」として受け入れているデータの典型的な品質なのだ。
ある日、オープンAI(OpenAI)が開発した自動言語生成モデルの先行公開版であるGPT-2が、私に「白人の権利」について公然と話し始めた。「白人の男性は」や「黒人の女性は」といった簡単な指示を与えると、そのモデルが生成した文章は、「白人アーリア人国家」や「異国や非白人の侵略者」について議論し始めたのだ。
この批判的な文章には、「ビッチ」や「スラット」(ともに女性の蔑称)、「ニガー」(黒人の蔑称)、「チンク」(中国人の蔑称)、「スラントアイ」(東洋人の蔑称)などのひどい中傷語が含まれていただけではない。生成された文章はまた、アメリカの白人国家主義者の使う言葉を含んでいた。それ …