米国国務省は毎年約2億通もの電子メールを生成する。大部分の電子メールは機微な、あるいは実際に秘密の情報を含んでおり、本来は機密区分を指定されなければならない。指定を厳格に運用するのは時間と費用がかかる。国務省は2015年だけで、機密指定の情報を守るために160億ドルを費やしている。
しかし、機密指定の信頼性ははっきりしない。情報を機密指定するための手続きに一貫性があり、信頼できる方法で運用されているかどうか、誰も知らないのだ。実は、何をもって情報を機密指定するべきかには、議論の余地が大いにある。
さらに、機密指定でミスを起こすのはほとんどの場合は人間だ。しかし、指定ミスがどの程度重大な事態を起こすのかは誰にもわからない。
11月15日、この問題はリオ・デ・ジャネイロ(ブラジル)のシンクタンク、ジェトゥリオ・ヴァルガス財団(FGV)のレナート・ロシャ・ソウザ研究員とコロンビア大学(ニューヨーク)との研究チームのおかげで状況が変わった。研究チームは、機会学習アルゴリズムによって、1970年代からの100万通以上の国務省の電信を研究したのだ。
研究チームによってもたらされたのは、人間がどのように規則を適用し、どの程度の頻度で機微な情報を公開してしまったり、無害な情報を隠したりしてしまう問題が起きるのかといった、政府の秘密の性質に関する前例のない洞察だ。また、アルゴリズムは電信が紛失する疑わしいパターンも明らかにした。
研究チームはまず、米国国立公文書館からXML形式で100万通の電信をダウンロードした。電信は、米国国務省と大使館や領事館など、国外の外交使節間で交わされた文書だ。
電信は「機密(secret)」から「秘密(confidential)」、「政府機関限定(limited official use)」、「一般(unclassified)」までラベル付けされている。「機密情報」は国家安全保障に深刻な損害を与えうる情報、「秘密情報」は損害を与えうるが重大ではないものと定義されている。「政府機関限定」は1 …