米国市民には、ソーシャル・ネットワークやニュース・フィード、あるいは電子メール、テキスト・メッセージ(SMS)、電話を通して、政治的メッセージが殺到している。人々が集中的にこの猛攻を受けるのは偶然ではない。政治団体は「マルチモーダル」な有権者との接触戦略を好む。彼らの主張や候補者を市民に届け、説得しようと、多くのプラットフォームを使って何度も試行するのだ。ある広告を閲覧した後に電子メールが送られ、さらにその後にテキスト・メッセージが届く。これらすべては政治団体のメッセージを補強するように設計されている。
マルチモーダルな接触戦略は、選挙運動だけでなく、政治資金団体(PAC)、権利擁護団体、非営利組織でも採用されている。団体の性質に応じてまったく異なるルールや規制が適用されるが、どの団体も米国内の何百万人ものデータを収集して、貧欲にデータを駆使している点は共通だ。
誰のデータが、データセットにあるのか?
ほぼすべてだ。ほとんどの選挙運動では、政党支持者か無党派かを問わず、一握りのデータベンダー(データ提供業者)から有権者情報を入手している。ベンダーは、登録有権者(日本版注:米国では市民による有権者登録が必要)であるかどうかにかかわらず、米国のすべての成人のデータ提供を目指している。個々のベンダーが米国のすべての有権者の包括的なデータを所有している可能性は低いが、ピュー研究所(Pew Research Center)が2018年にまとめた商業目的の有権者ファイルに関する報告書によると、同研究所が保有する米国人成人サンプルの90%以上が、少なくとも1つの有権者ファイルに含まれていることが明らかになっている。
どのようなデータが収集され、どこで収集されるのか?
有権者データの主要情報源は、投票者の名前、住所、所属政党などを含む公的投票記録だ。しかし、有権者データは不統一で、分散化されている。各州に独自のデータベースがあり、異なる属性を持っていることが多い。そのためベンダーは、電話帳や信用情報など、その他の情報源でデータを補っている。
ベンダーのデータベースに登録されるデータのすべてを把握するのは困難だ。各ベンダーが使うデータベース作成方法は通常、企業秘密だからだ。ピュー研究所の研究では、登録情報は「州が管理する登録有権者および投票に関する行政データ、ベンダーが提供する党派性や政治的関与・支持についてのモデル化されたデータ、幅広い情報源から抽出された人口統計や家計情報、ライフスタイルに関するデータの集合体」と説明されている。
ベンダーは、こうした複数のデータセットを照合・調整し、氏名や住所、性別、生年月日などの主要な識別子に基づく個人の包括的な情報を作成しようとしている。
こうした情報を売買する大手企業の1つである「L2」は、国勢調査データ、商用情報源からの電子メール、献金者のデータセットなどから得た600以上のデータ属性を保有していると謳う。専門家によれば、ほとんどの業者は、有権者個人に関する数百のデータポイントを提供しているという。
有権者データベースの精度は?
精度については、議論の余地がある。非常に正確なデータポイントもあれば、単なる予測、推測に過ぎないものもある。例えば、支持政党や人種は、名前や居住場所から推測していることが多い。ライアンという姓は白人と推測され、共和党支持者が多い地区に住んでいる人は共和党の支持者 …