こんにちは。アジャイル開発センターの橋本です。
情報システムの運用に携わった方なら、規模の大小はあれど必ずと言っていいほどシステムの障害を経験されているのではないでしょうか。IDC Japanが2016年10月20日に発表した調査結果によると、実に3割以上の企業で運用ミスによるシステム障害が毎月発生していると報告されています。
バグのないソフトウェアを実装することは大変困難ですが、ソフトウェアが構成要素となる情報システムにおいても、不具合の可能性を完全に排除することは現実的に見て不可能と考えざるを得ません。情報システムの障害対策として目指すべきゴールは「根絶」ではなく、予防措置や発生してしまった場合の早期解決、被害拡大の抑止、そしてそれを実現するための仕組みづくりです。
こうした障害対応への取り組みとして基本となるのが、システムの「監視」です。どんなに迅速に障害対応ができる体制が整っていても、どれほどメンテナンス性に優れた構成になっていても、障害の発生や予兆を検知することのできる監視の仕組みがなければ、すべてのアクションがユーザー影響の後手にまわります。たとえば人間の健康のために痛覚が大きな役割を果たしているように、情報システムの健全性のためには監視が不可欠です。
そこで、KDDIクラウドプラットフォームサービス(以下、KCPS)ではマネージドオプションのBasicプランとして、仮想サーバに基本的な監視項目が自動設定されるサービスを提供しています。
KCPSマネージドオプションBasicによるシステム監視
KCPSでは、監視と運用をメニュー化した「マネージドオプション」を提供しており、モニタリングツールとして実績のある株式会社はてなの「Mackerel(マカレル)」による監視を行うことができるBasicと、サポートスタッフが障害対応や定常作業を代行するメニューもご用意しております。
図1 マネージドオプション概要図
KCPSマネージドオプションBasicを利用するには、Admin Consoleでの仮想サーバ作成時にオプションとして選択します。これだけで死活監視、リソース監視、ログ監視が自動で設定されるので、基本的な仮想サーバの監視はオプションの選択のみで完了します。
また、一度仮想サーバを作成してから監視設定を追加したい場合も、Admin ConsoleのManaged Optionメニューから設定いただくだけで、同様にKCPSマネージドオプションBasicをご利用いただけます。
仮想サーバに自動設定される監視項目には、KDDIがこれまでに培ったKCPSにおける運用ノウハウが反映されています。さらにこの設定をベースに追加のカスタマイズを行うことによって、Mackerelの強力な機能を活用できるようになっています。
情報システム障害の実態
情報処理推進機構 ソフトウェア高信頼化センター(IPA/SEC)の発行するSEC journalの連載記事「情報システムの障害状況」では、全国紙に報道された大規模な障害事例を半年ごとに取りまとめており、バックナンバーがPDFとして配布されています。また、すべての連載を通した障害データをまとめたExcel形式のデータも用意されており、こちらは上記ページの末尾に記載されているメールアドレス宛に請求することが可能です (本記事の掲載時点)。
SEC Journalの連載記事「情報システムの障害状況」には、2007年からの情報システムの月平均障害発生件数の推移を示すグラフが掲載されています(図2)。
図2 報道された情報システムの障害件数の推移
( 情報システムの障害状況2017年前半データ より)
「重要インフラ情報システム信頼性研究会報告書」からの引用である2007、2008年に関しては大きく傾向が異なりますが、全体的には2009年からほぼ右肩上がりで、報道された障害の件数が増加していることがわかります。
情報システムの普及による絶対数の増加やシステムの複雑化などが障害件数の増加の大きな要因として予想されますが、いずれにしても、情報システムの障害が社会に与えるインパクトは年々大きくなってきていると見ることができるでしょう。
IPA/SECによって蓄積された各事例は、障害システム名、発生/回復日時、影響、現象と原因、直接要因、そして情報源の項目で整理されており、その件数は2017前半データまでで 282件にのぼります。以下は、IPA/SECから提供いただいた2017年前半までのExcelデータから、直接原因をもとに分類した原因種別の内訳です。
図3 障害発生の原因種別内訳
まず「ソフトウェア」による障害が37.1%と最も多く、「設計」の3.9%も含めるとソフトウェアや構成による障害が41%を占めています。次に「オペレーション」の21.5%が続きますが、「設定」の10.7%もオペレーションミスとして捉えると合わせて32.2%となります。最後に「ハードウェア」の17.6%に「電源」の3.4%と「ネットワーク」の2.9%、そしてハードウェアリソース不足が主要因である「過負荷」の2.9%を合算すると、インフラ関連による障害は26.8%を占めます。約7割を占めるソフトウェアやオペレーションミスによる障害は、その結果として発生するシステムの異常な挙動を監視によって捉えることができれば、障害の早期解決に繋げることができます。
まとめ
今や情報システムは、私達の生活に欠かせないものであると同時に、普及にともなう大規模化や複雑化によってその障害が社会に与えるインパクトは年々重大なものになってきています。こうした状況のなかで、システム監視の重要性もまた大きくなっています。安定したシステム運用と高品質なサービス提供のためにも、情報システムの「見える化」をしてみてはいかがでしょうか。