KDDIクラウドプラットフォームサービス(以下、KCPS)のサービス運用リーダーの野崎です。
KCPSの2016Q4稼働率(※)は99.99986%でした。
(※)稼働率=月間VM稼働時間累計/(月間VM稼働時間累計+月間VM故障時間累計)ただしメンテナンス時間を除く
いつもKCPSをご利用いただきありがとうございます。
さて、今回はQ毎にご報告しているこの”稼働率”について、少し振返ってみました。クラウドやネットワークの品質指標として広く知られているのが”稼働率”です。インターネットで検索すると関連する情報がたくさん見つかります。
ところで当社がさまざまな媒体を利用してお伝えしている“KCPS稼働率99.999%(ファイブナイン)”という数字の持つ意味ですが、簡単にイメージしていただくため、単体システムとした場合の故障時間に変換してみます。
※あくまでも目安であり、実際の当社算出方法とは異なります。
例えばこの”5分”、、、されど“5分”。数分間とはいえお客さまビジネスに与えるインパクトは非常に大きくなります。これまでの運用実績によりほとんどの課題はクリアになっているものの、いまだ未知事象が発生することがあります。いかにしてこのダウンタイムを短くするか?がキャリアグレードのクラウドを守る重要な課題になります。最近の事例を簡単にご紹介します。
クラウド環境をご利用いただくときに、パブリックネットワークやイントラネットワークと通信するために重要な役割を担う「仮想ルータ」というものがあります。複数の仮想ルータが同時に機能を停止すると(当然アラームは検知するのですが)その復旧プロセス(影響のあるお客さま抽出→ステータスチェック→仮想ルータ再作成→ステータスチェック)が複雑であり、復旧に時間がかかることが判明しました。
そこで私たちクラウド運用チーム、クラウド開発チームで事例を緊急レビューし「検知から復旧プロセスを自動で並列処理」する対策を施し影響時間を最小限(15分/仮想ルータ10台あたり)に抑えることに成功しました。さらに一般的にこれらのツール作成や自動化のスキルは俗人化しがちですが、OSSのGitLabでナレッジ化することでチーム全体へのスキルトランスファーを実現し、稼働率向上PDCAを加速させています。
クラウド黎明期から全盛期を迎えその提供形態や利用用途も多様化するなかで、将来をきちんと見据えて「早いものが遅いものに勝つ」という精神で引き続きスピード重視でお客さまシステムを守ってまいります。
また、私たちが発信するこのような取り組みや、これを含むマネージメントスキームを標準化しよう、という取り組みがクラウドの枠組みを超えて、当社内のさまざまな技術分野への適用が現在盛んに行われています。このような活動を通じて”お客さま体験価値向上”へつなげていきたいと考えています。
今回ご紹介したキャリアグレードの監視や自動化を取り入れたトータルソリューションについては是非当社へご相談ください。クラウド運用のプロフェッショナルがお客さまの課題を解決します。
次回レポートもご期待ください。