Amazonクラウド:AWS EC2 大規模障害について
2011年4月21日、米国太平洋時間午前1時頃から延べ3日間に渡って大規模な障害が生じました。
まずは障害に見舞われた方に心からお見舞い申し上げます。
復旧から数日経ち、今後パブリッククラウドをどのように安全に活用していくべきかという点で深く考えさせられた数日でした。
ネット上ではすでに冷静な分析がはじまっておりますが、BASISコンサルタントとしてクラウドといえども、金物には変わらないという意味で永遠のテーマを今一度つきつけられた感じです。
簡単ですが、今回発生した障害の概要です。
障害が発生したは、US-EAST-1リージョン、米国バージニア州北部にあるといわれるデータセンターです。
AWSの場合、一つのリージョンに複数のAvailability Zone(AZ)という区分けが存在していますが、そのうちの主な1つ、ただしアカウント毎にAZの物理的なマッピングは異なりますので、適切な表現が難しいです。(=アカウント A から見た us-east-1a はアカウントB にとっての us-east-1a と同じとは限らない、ただしアカウント Aの us-east-1aは常に同じ物理ロケーションにある)
事の発端は、ネットワーク経由でサーバに接続する際に遅延やエラーを検知したイベントという記事もありますが、それよりも前にサーバの高負荷やEBSへのI/Oが出来なかったとかの情報もありました。その後EBSボリュームの再ミラーリングが大量に発生したというのは事実で、これを聞いただけでBASISコンサルタントの方であれは、復旧にかなりの時間かかるのは容易に想像できたのではないかと思います。その後もキャパシティを追加して、再ミラーリングを加速させたり、特定のコントローラへの負荷集中を低減されていたりと、その対応に追われるエンジニアの懸命な姿は詳細は知らねども容易に想像できました。
他方で、実際に障害に見舞われたお客様が「われわれは、批判もできるが、EC2がなければ、今日ある場所にもいることができなかっただろう」というコメントを出されていたことも大変印象に残りました。
本件に関連する技術的に有益な情報を発信されているサイトを2つご紹介させてください。
1. 日本のパートナー様
実際にAWSを活用されているSonicGarden様が今回の障害に遭われた際に、事前に策定されていたリカバリプランでどのように迅速に解決され、また今回の障害を振り返って技術的な観点からご説明されておられましたのでご紹介させて頂きます。


