損失額1億5000万ドル AWS障害でクラウドは再設計へ
システムの運用を丸投げできるはずのクラウドで、最大手のアマゾンがサービスを適切に運用できていなかった。政府のサービスすらクラウド上で稼働しており、中央集権型Webサービスの信頼性を高める見直しが必要だ。 by Jamie Condliffe2017.03.06
あらゆるデータをクラウド上に保存するなら、万全の運用体制のあるクラウド事業者を選ぶだろう。だが先週、世界最大手のクラウド事業者であるアマゾンは、運用体制に不備があることを露呈してしまった。
2月28日、かなりの数のWebサイトが稼働しなくなった。Slackでは仕事の連絡ができなくなり、Trelloではプロジェクトを管理できなくなり、なんとMIT Technology Review(英語版)では、ブレークスルー・テクノロジー10の記事が読めなくなった。また、スマート・ホームでも、機器に不具合が生じたようだ。
原因は、アマゾンのクラウド型ストレージ「Amazon S3」の障害だ。アマゾンは世界最大手のクラウド・コンピューティング事業者であり、アマゾンのクラウドを利用していた多くのサービスが正常に動作しなくなった。システム障害はすぐに復旧せず、回復までに4時間以上かかった。
クラウドの機能停止による実際の損失額は正確には割り出しにくい。しかしウォール・ストリート・ジャーナル紙は、スタンダード・アンド・プアーズが発表する上位500社で、150億ドル以上の損失があったとする分析会社サイエンスの見積もりを掲載している。また、ネットワーク・トラフィックの監視会社アピカは、オンライン小売業者上位100位のうち54社でWebサイトのパフォーマンスが低下し、少なくとも20%の損失があったと見ている。実際の損失額がともかく、クラウドの停止で大きな損失があったことは間違いない。
損失額が大きいだけに、クラウドが停止した理由は情けない。障害に関する説明でアマゾンは、根本的な原因は定期メンテナンス中にバージニア州北部の施設で働くスタッフが実行した誤ったコマンドにあると認めた。ひとりの誤操作でインターネット全体を巻き込む大規模障害が発生したのだ。
誤操作したスタッフは、限られたサーバーをオフラインにするつもりが、必要以上のサーバーをオフラインにしてしまい、その中にシステム全体が使う基本プロセスが稼働しているサーバーが含まれていたため、ユーザーのリクエストを処理する施設の機能が根本的に失われてしまった。
アマゾンは世界各地で複数のクラウド「エリア」を運用しており、サービスの利用者は複数のクラウド・エリアでファイルを保存したり、コードを実行したりできる。しかし、複数のクラウド・エリアの使用は費用がかかるうえ、ザ・レジスターが記事にしているように、異なるエリアでサービスを運用していた企業でもシステムに不具合があった。設備の容量が足りず、エリアの切り替えがうまくいかなかった可能性が高い。
アマゾンのクラウドが停止するちょうど4日前、MIT Technology Reviewは中央集権型Webサービス特有のリスクを指摘しており、アマゾンのクラウド・サービスが動作しなくなった場合にどんな問題があるかを推測していた。記事はクラウド停止の「リスクはとても大きい」と警告し「セキュリティや信頼性、提供者としての適性」が重要である一方、中央集権型Webサービスを提供する企業はこうした要素を過小評価していると指摘した。
アマゾンも同じ意見のようだ。アマゾンではすでに防止策としての安全装置を設置し、今後は不慣れなスタッフが今回ほどの短時間に多くのサーバーをシャットダウンできないようにした。
対策はここから始まる。現時点では、クラウド・サービスを強化するには追加の保護方針が明らかに必要だ。たとえばアマゾンは、バージニア州北部の施設全体が一度に停止するような状況を許すべきではなかった。本来は、クラウド・サービスを複数のサブシステムに分割し、サブシステムごとに障害を閉じ込めるように設計すべきだった。
そこまでしても、中央集権型Webサービスはぜい弱なままかもしれない。たとえばボットネットを使い、ハッカーが事業社1社に大きな攻撃を仕掛けるだけで、Webの大部分を再び停止させられる可能性がある。だからといって、事業者の単純なミスでWeb全体が停止するような事態はあってはならない。
(関連記事:Wall Street Journal, the Register, AP, Amazon Web Services, “クラウド型社会混乱の可能性がクラウドフレアのデータ漏洩で判明,” “2017年版ブレークスルー・テクノロジー10:モノのボットネット”)
- 人気の記事ランキング
-
- Bringing the lofty ideas of pure math down to earth 崇高な理念を現実へ、 物理学者が学び直して感じた 「数学」を学ぶ意義
- Promotion Innovators Under 35 Japan × CROSS U 無料イベント「U35イノベーターと考える研究者のキャリア戦略」のご案内
- The 8 worst technology failures of 2024 MITTRが選ぶ、 2024年に「やらかした」 テクノロジー8選
- Google’s new Project Astra could be generative AI’s killer app 世界を驚かせたグーグルの「アストラ」、生成AIのキラーアプリとなるか
- AI’s search for more energy is growing more urgent 生成AIの隠れた代償、激増するデータセンターの環境負荷
タグ | |
---|---|
クレジット | Photograph by Adrian Dennis | Getty |
- ジェイミー コンドリフ [Jamie Condliffe]米国版 ニュース・解説担当副編集長
- MIT Technology Reviewのニュース・解説担当副編集長。ロンドンを拠点に、日刊ニュースレター「ザ・ダウンロード」を米国版編集部がある米国ボストンが朝を迎える前に用意するのが仕事です。前職はニューサイエンティスト誌とGizmodoでした。オックスフォード大学で学んだ工学博士です。