損失額1億5000万ドル AWS障害でクラウドは再設計へ
コネクティビティ

Amazon’s $150 Million Typo Is a Lightning Rod for a Big Cloud Problem 損失額1億5000万ドル AWS障害でクラウドは再設計へ

システムの運用を丸投げできるはずのクラウドで、最大手のアマゾンがサービスを適切に運用できていなかった。政府のサービスすらクラウド上で稼働しており、中央集権型Webサービスの信頼性を高める見直しが必要だ。 by Jamie Condliffe2017.03.06

あらゆるデータをクラウド上に保存するなら、万全の運用体制のあるクラウド事業者を選ぶだろう。だが先週、世界最大手のクラウド事業者であるアマゾンは、運用体制に不備があることを露呈してしまった。

2月28日、かなりの数のWebサイトが稼働しなくなった。Slackでは仕事の連絡ができなくなり、Trelloではプロジェクトを管理できなくなり、なんとMIT Technology Review(英語版)では、ブレークスルー・テクノロジー10の記事が読めなくなった。また、スマート・ホームでも、機器に不具合が生じたようだ。

原因は、アマゾンのクラウド型ストレージ「Amazon S3」の障害だ。アマゾンは世界最大手のクラウド・コンピューティング事業者であり、アマゾンのクラウドを利用していた多くのサービスが正常に動作しなくなった。システム障害はすぐに復旧せず、回復までに4時間以上かかった。

クラウドの機能停止による実際の損失額は正確には割り出しにくい。しかしウォール・ストリート・ジャーナル紙は、スタンダード・アンド・プアーズが発表する上位500社で、150億ドル以上の損失があったとする分析会社サイエンスの見積もりを掲載している。また、ネットワーク・トラフィックの監視会社アピカは、オンライン小売業者上位100位のうち54社でWebサイトのパフォーマンスが低下し、少なくとも20%の損失があったと見ている。実際の損失額がともかく、クラウドの停止で大きな損失があったことは間違いない。

損失額が大きいだけに、クラウドが停止した理由は情けない。障害に関する説明でアマゾンは、根本的な原因は定期メンテナンス中にバージニア州北部の施設で働くスタッフが実行した誤ったコマンドにあると認めた。ひとりの誤操作でインターネット全体を巻き込む大規模障害が発生したのだ。

誤操作したスタッフは、限られたサーバーをオフラインにするつもりが、必要以上のサーバーをオフラインにしてしまい、その中にシステム全体が使う基本プロセスが稼働しているサーバーが含まれていたため、ユーザーのリクエストを処理する施設の機能が根本的に失われてしまった。

アマゾンは世界各地で複数のクラウド「エリア」を運用しており、サービスの利用者は複数のクラウド・エリアでファイルを保存したり、コードを実行したりできる。しかし、複数のクラウド・エリアの使用は費用がかかるうえ、ザ・レジスターが記事にしているように、異なるエリアでサービスを運用していた企業でもシステムに不具合があった。設備の容量が足りず、エリアの切り替えがうまくいかなかった可能性が高い。

アマゾンのクラウドが停止するちょうど4日前、MIT Technology Reviewは中央集権型Webサービス特有のリスクを指摘しており、アマゾンのクラウド・サービスが動作しなくなった場合にどんな問題があるかを推測していた。記事はクラウド停止の「リスクはとても大きい」と警告し「セキュリティや信頼性、提供者としての適性」が重要である一方、中央集権型Webサービスを提供する企業はこうした要素を過小評価していると指摘した。

アマゾンも同じ意見のようだ。アマゾンではすでに防止策としての安全装置を設置し、今後は不慣れなスタッフが今回ほどの短時間に多くのサーバーをシャットダウンできないようにした。

対策はここから始まる。現時点では、クラウド・サービスを強化するには追加の保護方針が明らかに必要だ。たとえばアマゾンは、バージニア州北部の施設全体が一度に停止するような状況を許すべきではなかった。本来は、クラウド・サービスを複数のサブシステムに分割し、サブシステムごとに障害を閉じ込めるように設計すべきだった。

そこまでしても、中央集権型Webサービスはぜい弱なままかもしれない。たとえばボットネットを使い、ハッカーが事業社1社に大きな攻撃を仕掛けるだけで、Webの大部分を再び停止させられる可能性がある。だからといって、事業者の単純なミスでWeb全体が停止するような事態はあってはならない。

(関連記事:Wall Street Journal, the Register, AP, Amazon Web Services, “クラウド型社会混乱の可能性がクラウドフレアのデータ漏洩で判明,” “2017年版ブレークスルー・テクノロジー10:モノのボットネット”)