Quantcast
Channel: KDDI Cloud Blog
Viewing all articles
Browse latest Browse all 157

AWS社単一AZ障害、あの日を振り返り、KDDIは次のステップへ

$
0
0

サービスアプリケーション開発部の大橋です。

2019年9月24日にTech-in AWS※が主催する社内勉強会「Tech-in AWS #XX」をオリックス不動産西新宿ビルにて”緊急”開催致しました。

※Tech-in AWS:
Tech-inという社内の技術勉強会コミュニティから派生して誕生した技術特化コミュニティ。
普段はKDDI社内およびKDDIグループ企業を参加対象とし、AWSをテーマにした勉強会を定期的に開催。

普段定期的に勉強会を行っているTech-in AWSが、何故”急遽”9月24日に勉強会を開催することになったのか?それは、皆様の記憶にも新しいと思いますが、2019年8月23日に「AWS東京リージョン単一AZ障害」が発生したからです。この障害により一部のKDDIの商用サービスに影響が出たものもありました。今後もし同様の障害が発生した場合であっても安定した商用サービス稼働が維持できるよう、全社に対しこの障害の原因と対策方法についての情報共有を早急にすべきだという判断になり、「社内勉強会」という形式をとってこれを実現するに至りました。

当初どれだけの方に参加していただけるのか正直不安ではありましたが、結果260名以上の参加申し込みがあり、勉強会当日も206名もの社員に参加頂けました。今回の障害についての社内の関心度の高さが伺えます。クローズドな勉強会であるため詳細な内容については触れることができないのですが、本勉強会の模様について公開できる範囲でご紹介していきたいと思います。

当日の会場の様子。準備していた200席以上の座席はほぼ満席。技術部門以外の方も多く参加しました。

勉強会当日のアジェンダは下記のとおりです。

#1 「2019/8 AWS東京リージョン障害を受けての認定AWS上のシステム棚卸結果」
-プラットフォーム開発本部 サービスアプリケーション開発部 松本 健太郎さん
#2 「AWS障害ふりかえり –APES編–」
-プラットフォーム開発本部 アジャイル開発センター 上森 孝英さん
#3 「auでんきアプリ 8.23 AWS AZ障害」
-プラットフォーム開発本部 アジャイル開発センター 高木 徹さん、須田 一也さん
#4 「登壇者の皆様へのQ&Aセッション」
-登壇者全員

ひとつずつ順番にご紹介します。
 

#1 「2019/8 AWS東京リージョン障害を受けての認定AWS上のシステム棚卸結果」

1人目の登壇者は、プラットフォーム開発本部 サービスアプリケーション開発部 松本 健太郎さんです。

松本さんは社内で取り扱う全てのAWSアカウントの取りまとめを行っています。障害発生直後、松本さんの所属するサービスアプリケーション開発部が主体となり、全社を対象にAWS上に構築された100以上のシステムに対して障害状況や冗長構成などのヒアリングを行いました。今回の登壇ではその調査結果の詳細を松本さんからご報告頂きました。全社ヒアリングで得られた非常に生々しい調査結果がグラフなどできれいに見える化された形で共有され、参加者の目線を集めていました。
 

#2 「AWS障害ふりかえり –APES編–」

続いて、プラットフォーム開発本部 アジャイル開発センター 上森 孝英さんです。

上森さんは、「APES」と呼ばれる社内APIゲートウェイシステムの開発担当者です。社内API-GWシステムでの当時の運用体制や今後の検討方針、またAWSサポートを活用しながら復旧する仕組みや手順などの予防策をあらかじめ考慮し準備しておく必要があることなどをお話頂きました。
 

#3 「auでんきアプリ 8.23 AWS AZ障害」

最後は、プラットフォーム開発本部 アジャイル開発センター 高木 徹さんと

同じくプラットフォーム開発本部 アジャイル開発センター 須田 一也さんです。

高木さんはauでんきアプリシステムの開発担当者、須田さんはauでんきアプリシステム開発チームのチームリーダーです。「8月23日はAWSによるカオスエンジニアリングだったのではないか?」とジョークを交えつつも、
問題の解決アプローチを見極めるためのフレームワーク「Cynefin Framework」を例にして、障害が起きた当日、我々に何ができたのか?などをお話頂きました。

「社内API-GWシステム」と「auでんきアプリシステム」は、共に社内でも高いSLAを求められる(24H稼働必須)システムであり、その担当者から、当時の影響範囲やそれに対する対応、また今後障害が発生した場合どのような対策をしているかなどを、アーキテクチャや運用体制を踏まえてご登壇頂きました。どちらも発表内容が「現場のリアル」であり、社外からはなかなか共有されない情報だけに、参加者の多くがメモを取る姿が見受けられました。
 

#4 「登壇者の皆様へのQ&Aセッション」

本勉強会の最終セッションとして、Webシステムを通じて会場にいる参加者の皆様から直接各登壇者への質問を投げることができるQ&Aタイムを設けました。残念ながらあまり詳しくはお伝えできないのですが、

Q「最新の障害状況はどのように情報収集していたのか?」
A「Service Health Dashboardを見つつもSNSを上手に利用した」

Q「障害当日のサポートケースは適切な時間で処理されたか?」
A「初動回答は規約通り届いたが、その後の詳細回答まではn時間程度かかった」

などなど、会場の参加者から寄せられた質問のうち、イイねの評価が高いものから順番に回答していく形式でのセッションで、非常に多くの質問が寄せられ、登壇者の皆様にはご自身の対応事例を踏まえてご回答頂きました。また中には、障害の根本的な原因や推奨解決方法など直接AWS社へ向けたものもありましたが、これらについてはAWS社のソリューションアーキテクトにご協力頂き、時間の関係から回答できなかったものを含め、後日すべての質問に対して回答を返すことができました。

Tech-in AWSのメンバーの強い想いによってスタートした今回の勉強会は、最終的に過去最大となる200名を超える参加者となり、全社に向けた非常に重要な情報共有の場になりました。参加頂いた社員が、自らが担当するシステムのSLAに合わせた適切な冗長構成や運用体制、自動復旧や手動復旧の組み合わせ等、必要な対策を考えるきっかけになって頂けたら嬉しいです。
 


Viewing all articles
Browse latest Browse all 157

Trending Articles