ランサムウェアからボットネットまで、マルウェアは無限と思われるほどさまざまな形態をとり、しかも際限なく増殖している。コンピューターをマルウェアから保護する人たちもがんばってくれてはいるものの、猛攻撃に溺れかけている。そこで、強力な助っ人として目を向けられているのが、人工知能(AI)だ。
ただし、1つ問題がある。機械学習には膨大な量のデータが必要なのだ。コンピューター・ビジョンや自然言語処理などであれば、大規模なオープンソースのデータセットが利用できるからその点は大丈夫だ。そうしたデータセットを使って、たとえば猫はどういう見た目をしているかとか、ある単語が他の単語とどのように関係しているかといったことをアルゴリズムに学習させられる。だがマルウェアの世界には、これまでのところ、そんなものは存在しなかった。
サイバーセキュリティ企業であるエンドゲーム(Endgame)は4月後半、エンバー(EMBER:Endgame Malware Benchmark for Research)と呼ばれる大規模なオープンソース・データセットを発表した。エンバーは無害なファイルと悪質なファイルからなる100万以上ものWindows互換の実行ファイルのデジタル表現を集めたデータセットだ。 …