米国国勢調査局は毎年約10億ドルをかけて人口動態を調査している。米国民の実態を把握するため、調査対象者に人種や性別、教育、職業等を尋ねる。米国民を鳥瞰的に理解し、国民がどう変化しているかを把握するために欠かせない重要な調査だ。
しかし、調査は簡単には実施できない。まず、データ量が相当に大規模だ。国勢調査局の最重要調査である「アメリカン・コミュニティ・サーベイ(American Community Survey:ACS)は人口6万5000人以上のすべての市郡(それ以下の地域は対象外)が調査対象なのだ。
しかも、人口調査には膨大な時間がかかる。時間がかかりすぎて発表されるデータの一部が5年前になっている場合があるほどだ。新旧のデータが混ざってしまえば、比較に不整合が生じる可能性もある。
したがって人口統計学者は、人口をもっと迅速に、効率的に、詳細に研究できる方法を渇望しているのだ。
スタンフォード大学のティムニット・ギブル研究員のチームは、グーグル・ストリート・ビューの画像から、米国のさまざまな都市を驚くべき正確さで人口統計学的に分析した。研究チームは、人口統計学者が現在の方式を補完し、改善する、まったく新しい手法で、信頼できるデータを収集する方法を示している。
研究チームは、グーグル・カーが米国の200都市で収集した5000万枚のストリート・ビュー画像を使うことにした。各地域の人が所有する自動車の車種は、地域の人種や収入、教育レベル、職業等を強く反映する指標になると考えたのだ。
研究チームは、画像内の自動車を認識できるようにマシン・ビジョンのアルゴリズムを訓練し、画像内の自動車をメーカーやモデル、年式の組み合わせから2657種類に分類し、自動車から読み取れる情報を正確にデータ化できるようにした。
研究チームが分類した合計約2200万台の車は、全米の各都市で使われている車両の約3分の1に相当する。分類作業には1台あたり約0.2秒かかり、全件の処理には研究チームのシステムで約2週間かかった。「画像1枚の分類に専門家で10秒かかるとすれば、同様の作業を人間がすれば15年以上かかる計算です」と研究チームはいう。
では、各地域の車両はどう地域の人口動態に関係するのだろうか? 研究チームは分類した自動車と米国国勢調査局のデータ、さらに各投票地区(約1000人ずつの区域)の大統領選の投票パターンの相関を学習させるため、今度は35都市のデータセットで深層学習アルゴリズムを訓練した。
その上で研究チームは、検証に使うため、訓練に使わなかった残りのデータセットで深層学習アルゴリズムの精度を調べた。研究チームが知りたいのは、ある地域の車両パターンを与えると、米国国勢調査局や大統領選の投票データの記録通りの人口動態を、アルゴリズムが正確に予測できるか、である。
検証により、深層学習アルゴリズムは驚くほどの精度で予測できることがわかった。「各地の自動車の分類により、その地域の住民の人口動態統計や社会経済的な属性、政治的選好まで推測できたのです」と研究チームはいう。
たとえば、民主党支持者と最も密接も関わっていたのはセダンで、共和党に投票した選挙区により密接な関係があったのはエクステンド・キャブ・ピックアップだとわかった。「ある街を、セダンとエクステンド・キャブ・ピックアップの数を数えながら15分も運転すれば、その街が民主党と共和党のどちらに投票したか、確実に判定できることがわかったのです」と研究チームはいう。
重要なのは、新方式は従来の方法で調査して集計した人口動態データとどれだけ一致するかだ。この点を明らかにするため、研究チームは調査結果をアメリカン・コミュニティ・サーベイが収集した米国国勢調査局のデータと比較した。その結果、研究チームは収入や教育、職業等の人口動態の要素と深層学習による予測が強く相関していることを確認した。約1000人の有権者がいる投票地区単位で有権者の選好をきめ細かく予測できたのだ。
アメリカン・コミュニティ・サーベイは、少なくとも当面は、データ収集における究極の判断基準であり続けるだろう。しかし、グーグル・ストリート・ビューで高品質のデータをすばやく収集できたことは、人口動態の変化をほぼリアルタイムに監視できる素晴らしい可能性がある。
そして当然、街の画像を収集している組織はグーグルだけではない。フェイスブックやツイッター等のソーシャル・メディア・ネットワークが収集したジオタグや日時付きの画像に同じ処理を適用できるのは確実だ。
参照:arxiv.org/abs/1702.06683: 米国の人口構成の評価に深層学習とグーグル・ストリート・ビューを使う