バイアス(偏り)のあるデータやアルゴリズムによって、低所得者層やマイノリティ集団が自動的に不利になるよう意思決定が歪められることは、すでに知られている。例えば、ローンをきちんと返済するかどうかを予測する銀行のソフトウェアは、通常は裕福な白人の申込者に有利に働く。多くの研究者とスタートアップ企業がこうしたアルゴリズムをもっと公平にすることで、問題を解決しようと取り組んでいる。
だが、スタンフォード大学のローラ・ブラットナー助教授とシカゴ大学のスコット・ネルソン助教授の2人の経済学者が実施した過去最大規模のローン貸付けデータの研究によって、マイノリティとマジョリティ間でローン貸付け判断が異なる別の理由が明らかになった。バイアスに加えて、マイノリティや低所得者集団では信用履歴データが少ないことも原因だという。
すなわち、借り手の債務不履行の可能性を、過去の信用履歴データを使って信用スコアを計算し、そのスコアをもとに予測するなら、予測精度は低くなる。不平等を生む原因は精度の不足であって、バイアスだけではないという。
影響は明白だ。公平なアルゴリズムだけでは、この問題を解決できない。
ハーバード大学で機械学習と経済学を研究するアシェシュ・ランバチャン博士(今回の研究には関与していない)は、「これは本当に衝撃的な結果です」とコメントする。バイアスと不完全な信用記録はここしばらくホットな話題となっているが、今回の研究は膨大な数の実在する人々のローン申込みに注目した初の大規模研究となる。
信用スコアは、雇用履歴や財務記録、購買習慣など広範な社会経済的データを1つの数字に凝縮したものだ。今では、ローンの申込みに関わる判断以外にも、保険や雇用、不動産など人生を変えるような多くの判断に信用スコアが使われている。
ブラットナー助教授とネルソン助教授は、マイノリティ集団とマジョリティ集団が、ローンの貸し手から異なる扱いを受ける理由を解明するため、匿名化された5000万人の米国消費者の信用情報を収集。マーケティング用データセットから取得した社会経済的な詳細情報、不動産権利書と住宅ローン契約、融資したローンの貸し手に関するデータと結びつけて分析した。
今回のような研究がこれまで実施されてことなかったのは、こうしたデータセットが企業秘密であり、研究者には公開されていないからだ。ブラットナー助教授は、「私たちはこの研究のために信用調査機関へ依頼し、実際に多額の費用を払わねばなりませんでした」と述べている。
ノイズを含んだデータ
ブラットナー助教授とネルソン助教授がさまざまな予測アルゴリズムを試した結果、信用スコアにはバイアスだけでなく、統計用語で言うところの「ノイズ」が含まれることがわかった。ノイズとは、正確な予測に無関係のデータのことだ。信用スコア620のマイノリティのローン申込者を例にとってみよう。もしシステムに …