ロシアで開催された2018年サッカー・ワールド・カップは、オリンピックをもしのぐほどの人気だ。歴史上もっとも広く見られたスポーツ・イベントの1つかもしれない。そのため、毎回、どのチームが優勝するかについて、大きな関心が寄せられる。
結果を判断する方法の1つは、スポーツ賭博の賭け屋(ブックメーカー)のオッズを見ることだ。賭け屋は、プロの統計家に結果に関する広範なデータベースを分析させ、可能性のある試合の組み合わせに関して異なる結果の確率を定量化する。こうしておけば、数週間にわたるすべての試合とその試合の勝者に関するオッズを、賭け屋は提供できる。
さらに確率の高い推定をしたいならば、多くの異なる賭け屋のオッズを徹底的に調べればいい。この方法によると、2018年のワールド・カップでブラジルが優勝する確率は16.6%で他を寄せ付けず、次にドイツ(12.8%)、スペイン(12.5%)の順となった。
しかし近年、従来の統計的アプローチを上回る可能性を持つ機械学習の手法を、研究者は開発してきた。この新しい手法は、2018年ワールド・カップの結果をどう予測したのだろうか。
その答えを出したのは、ドイツ・ドルトムント工科大学のアンドレアス・グロール准教授のチームによる研究である。研究チームは、機械学習と従来の統計の組み合わせた「ランダム・フォレスト」と呼ばれる手法を使って、統計的アプローチとは異なる国のチームが優勝する確率が高いと特定した。
最初に、研究の背景を述べておこう。ランダム・フォレスト技法は、他のデータ・マイニング手法の落とし穴を一部回避しながら、大規模なデータ・セットを分析する強力な方法として近年登場した。一連の訓練データを参照して各ブランチ(枝)の結果を計算する決定木によって、将来の事象は決定されるとの考えに基づくものだ。
しかし、決定木にはよく知られている問題がある。分岐工程の後半で、決定木はわずかなデータで訓練するためひどくゆがみ、回答が大きく変化しがちだ。この問題は過剰適合(Overfitting)と呼ばれている。
ランダム・フォレストの手法は違 …