機械学習の訓練を「分割」、MITメディアラボがプライバシー保護で新手法
グーグルがディープマインドの医療部門を吸収すると発表したとき、データ・プライバシーを巡る大論争を巻き起こした。ディープマインドは患者データをそのままグーグルに委ねることはないと明言したものの、詳細で私的な医療記録が巨大テック企業に渡ると考えるだけで人々は 不安に陥ったのだ。大量の質のよいデータを得るのに伴うこの問題が、機械学習を医学に応用する上で最大の障壁となっている。
こうした問題を回避するため、AI研究者はデータの機密性を保持しながら機械学習モデルを訓練できる新しい方法の開発を進めてきた。マサチューセッツ工科大学(MIT)が発表した最新の方法は、「スプリット・ニューラル・ネットワーク(split neural network)」と呼ぶもので、深層学習モデルの訓練を始める人と、それを完成させる人を分けるというものだ。
スプリット・ニューラル・ネットワークでは、病院などの医療機関が各所で保有する患者データを使い、モデルの訓練を途中まで実施する。その後、ある程度まで訓練したモデルを集約し、各モデルをまとめて訓練の最終段階を完了する。グーグルやその他の企業のクラウド・サービスであろうと、モデルの集約先で生の患者データは参照しない。集約先で目に触れるのは、未完成のモデルと、その出力のみだ。だが、病院はすべての参加医療機関のデータを組み合わせて訓練した最終モデルの恩恵を受けられる。
論文を共同執筆したMITメディアラボのラメシュ・ラスカー准教授は、このプロセスをデータの暗号化になぞらえる。「暗号化されているからこそ、自分のクレジットカード情報を他者に送信しても安心なのです」。ニューラル・ネットワークの初期段階において医療データを「難読化」することで、暗号化と同様にデータを保護できるのだ。
研究チームは、患者データの保護を目的とした他の方法と今回の手法とを比較している。スプリット・ニューラル・ネットワークははるかに少ないコンピューター・リソースで訓練を実行できるほか、精度の高いモデルを生成できることが明らかになっている。