MITテクノロジーレビューではこれまで、現在の人工知能(AI)アプリケーションの大多数が深層学習と呼ばれる種類のアルゴリズムを基礎としていること、深層学習アルゴリズムがどのようにしてデータからパターンを見つけ出すのかを述べてきた。さらに、そのテクノロジーがどのように人々の暮らしに影響を及ぼし得るかについても解説してきた。雇用、小売、セキュリティの分野に永続的な不公正をもたらし得ること、現在すでに刑事司法制度においてはそれが現実になっているかもしれないといったことだ。
しかし、このようなバイアス(偏り)が存在すると知っているだけでは不十分だ。それを是正しようとするのなら、そもそも偏りがいかにして起こるかという仕組みを理解する必要がある。
AIの偏りはいかにして生じるか
AIの偏りについての説明では、偏った訓練用データが原因であると手短に述べられることが多い。だが現実はそう大雑把に語れない。偏りはデータが収集されるもっと前から発生し得るし、深層学習の過程には偏りが混ざり込む段階がいくつもある。話を前に進めるにあたり、ここでは3つの重要な段階に焦点を当てる。
問題の定義
コンピューター科学者が深層学習モデルを作成するときに最初にすることは、実際に何を達成したいかを決めることだ。たとえばクレジットカード会社なら顧客の信用度を予測したいと思うかもしれないが、「信用度」という概念はかなり漠然としている。それを計算可能なものに変換するためには、たとえば、利益率を最大化したいのか、あるいはローンの返済件数を最大化したいのかを決める必要がある。そうすれば目的のコンテクストに沿った信用度を定義できる。ここで問題となるのは「こうした決定は、公平さや差別とは別の、さまざまなビジネス上の理由に基づいて下されることです」と、コーネル大学で機械学習の公平性の研究を専門とするソロン・バロカス助教授は語る。利益最大化のためにはサブプライムローンの融資が効果的だとアルゴリズムが気づいたなら、たとえ会社が意図していなくても債務者を食い物にする行動に出るだろう。
データ収集
訓練用データに偏りが現れる主な道筋は2つある。1つは収集するデータが現実を正しく反映していない場合、もう1つは既存の偏りを反映している場合だ。前者のケースはたとえば、浅黒い肌の顔写真よりも肌の色の薄い顔写真を深層学習アルゴリズムに多く入力した場合に起こる可能性がある。結果として出来上がる顔認識システムは必然的に、肌の色が浅黒い顔の認識が苦手になることだろう。一方、後者はまさに、アマゾンが社内で使っていた採用ツールが女性の応募者を切り捨てていたことが判明したケースそのものだ。同ツールは、女性よりも男性を優遇していた過去の採用データで訓練されたため、同じことをするように学習してしまったのだ。
データの準備
最後に、データの準備段階でもバ …
- 人気の記事ランキング
-
- Bringing the lofty ideas of pure math down to earth 崇高な理念を現実へ、 物理学者が学び直して感じた 「数学」を学ぶ意義
- Google’s new Project Astra could be generative AI’s killer app 世界を驚かせたグーグルの「アストラ」、生成AIのキラーアプリとなるか
- These AI Minecraft characters did weirdly human stuff all on their own マイクラ内に「AI文明」、 1000体のエージェントが 仕事、宗教、税制まで作った
- AI’s search for more energy is growing more urgent 生成AIの隠れた代償、激増するデータセンターの環境負荷