予測モデル大ハズレ:なぜ選挙予想と世論調査はこんなに違ったのか?
知性を宿す機械

Prediction Models Gone Wild: Why Election Forecasts and Polls Were So Wrong 予測モデル大ハズレ:なぜ選挙予想と世論調査はこんなに違ったのか?

世論調査でクリントンがリードしていたため、リアルタイムのデータでも同じように表示してしまった。それが報道機関の失敗だ。 by Michael Reilly2016.11.10

火曜日の午後、バイス・ニュースを見た人やスレートで選挙報道をチェックしていた人はヒラリー・クリントンが ほぼ確実にアメリカ初の女性大統領になると思っただろう。

最初、どちらのメディアも「ボートキャスター(VoteCastr)」というスタートアップ企業から得たリアルタイムデータをストリーミング配信していた。ボートキャスターは史上初めてアメリカに「選挙の展開」を伝える企業と自称している。ボートキャスターが最後に予測したのは火曜の夜9時頃。クリントンがペンシルベニア州、オハイオ州、フロリダ州、ウィスコンシン州、アイオワ州で勝利すると予測した。しかし結果はどの州もドナルド・トランプが勝利を掴んだ。

ボートキャスターに限った話ではない。世論調査、人口統計、過去のデータに基づく多くの選挙予想も同様に大きく予想を外した。たとえばニューヨーク・タイムズ紙の予測モデルはクリントンの 勝率を85%と予測し、選挙予測サイトとして定評のある「ファイブサーティエイト」はクリントンの勝率を 72%と予測した。

原因は、予測の参考にしていた世論調査結果が現実とかけ離れていたか、少なくとも誤差の範囲には収まる予測のブレが一因だ(クリントンは得票数では勝ったので「世論調査は正しかった、ただ選ぶ勝者を間違えただけだ」で済むかもしれない)。アメリカ国内の白人労働者階級がいかに強いかをよく理解していなかったことも、今回の結果に繋がった一因かもしれない。誰を支持しているのか聞かれても、 正直に答えられなかったのだ。クリントン陣営が「ファイアウォール」と位置付けた州をすべて安全圏と見ていたことは間違いだった。トランプ陣営のデータチームはトランプの勝率を5分の1と分析していた

しかしボートキャスターのミスは、選挙日の欠陥のある技術的性能の問題を別にすれば、唯一、断定してしまったことだ。ボートキャスターにはジョージ・W・ブッシュとオバマ陣営で働いていたデータ分析のプロがいる。彼らは期日前投票、有権者のアイデンティティ、出口調査に細心の注意を払い、以前は利用できなかった選挙中のリアルタイム表示を可能にした。これはデータ主導型の選挙サービスとして最先端だった。

しかし、ボートキャスターは不備のある、不完全な選挙追跡調査によって、結果的に他のサービスとほとんど変わらないと自ら証明してしまった。

(関連記事:Politico, FiveThirtyEight, The New York Times, Bloomberg