現状の課題
ユーザーへの回答を迅速かつ適切に行うのがインシデント管理の目的であるが、そのためにはインシデント管理の精度を上げる必要がある。インシデントが漏れなく登録されている場合でも、インシデントが優先順位付けされておらず、重要なインシデントの対応が後回しになったり、重大なインシデントの発生時に関係者への連絡が遅れたりといった問題が起こるケースがある。
逆に、不要なインシデントが数多く登録されるケースもある。システム監視ツールは、さまざまなアラート事象を検知する。例えば、バックアップ処理中の一時的なリソース高負荷、定期リブート作業に伴うノードダウン、冗長化構成サーバーの待機系障害などだ。それらを機械的にインシデント管理ツールに登録すると、ユーザーへのサービス提供に影響しないアラートまでもがインシデントとして登録されてしまう。
解決策
インシデント管理を効率的に行うには、その影響度や緊急度に従ってインシデントを適切に優先順位付けすることが必要である。インシデントの優先順位付けルールを明確にし、インシデント管理ツールを活用して効率的に優先順位付けする。
重大なインシデントや原因究明が困難なインシデントは、速やかにメールやチャットメッセージなどで関係者に通知することが必要である。インシデントを関係者に通知するルールを明確にすることに加え、インシデント管理ツールを活用して確実かつ迅速に情報を伝える工夫が必要である。
対応が不要な既知のシステムアラートが登録されないようにするには、システムの異常事象を適切に分類し、フィルタリングすることが必要である。これは、極力人手を介さず、客観的な判断基準(SLAなど)に従って自動的に行われることが望ましい。
Senju Familyでの実践方法
Senju Service Managerでは、インシデントを登録する際、影響度・緊急度を基に、優先度を決められたルールに基づいて自動的に決定する。これにより優先度付けの漏れや、担当者個々人による優先度付けのバラツキを防ぐことができる。調査や1次切り分けの結果に応じて、優先度を手動で変更することも可能である。
また、インシデントの内容のメールまたはWebhookによる通知機能を備えている。インシデント内容を所定のテンプレート(ひな型)に従ってメール本文またはチャットツールのメッセージとして自動的に整形し、所定の宛先に送信することができる。テンプレートは、通知先やインシデントの種別に応じて複数準備することができ、関係者への通知の迅速化、通知内容の平準化を図ることが可能となる。
イベントを自動的にインシデントとして登録することができるが、イベントは、発生元ノード、アラートの種類、発生時間帯、アラートの内容を基に、事前に定義されたSLAと照らし合わせて、インシデントとして扱うべきものだけをふるい分けした上で登録する。さらに、影響度や緊急度、担当者などを自動的にアサインした上で登録することもでき、迅速かつ的確なインシデント対応が可能となる。