メッセージ氾濫から脱却する監視標準化

システム障害が発生した際、ログは障害検知や原因特定の重要な手掛かりとなります。
OSのログやアプリケーションのログを監視し、障害検知条件にマッチした時、障害の発生を知らせる「障害イベント」を発報しますが、
条件の設定によっては、障害とはいえないものを検知して障害イベントを発報してしまいます。
例えば「ERRORが含まれる」「WARNINGが含まれる」という単純な文字列を条件に指定した場合、
大量の障害イベントが発報されてしまうことがあります。また、一つの障害に起因して副次的な障害が発生する場合も同様です。

大量に発行された障害イベントの負担

このように障害イベントが大量に発報されると、オペレーションエンジニアの切り分け・確認作業が大きな負担となり、
重要なイベントを見落とすリスクがあります。また、障害イベントを確認した後、開発担当者への電話コールが必要になった場合、
それが夜間であれば電話を受けた開発担当者だけでなく、電話を掛けるオペレーションエンジニアにとっても大きなストレスとなるでしょう。
対応不要の障害イベントや夜間の電話コールは極限まで削減することが必要となります。

不要なイベントを抑止する為のSenju/EN

監視標準化の例として、Zabbixなどの監視ツールからバラバラに発行されるイベントをSenju/ENのHubエンジンを使って集約し、
一つにまとめた上でRuleエンジンにてイベントの種類に応じた手順を実施するようにします。
無視してよいイベントはフィルタリングを行って通知しません。
リソースに関する通知はしきい値を超えた時に一度だけ発行することにより不要なイベントを抑止できます。

監視の標準化で情報共有がスムーズ

既知の問題にはワークアラウンドを実施しそれぞれの対応記録を通知するようにします。
これで現場での対応を標準化でき、不要イベントも通知されなくなるため、作業負荷は大幅に軽減できます。
未知のエラーは原因や対応を関係者内で情報共有することも重要となります。
障害イベント発生時にはインシデントの起票を行い、適切な担当者にエスカレーションしなければなりません。
その結果、関係者内での情報共有がスムーズとなり、対応漏れを防ぐことにもなります。

無視してよいイベントをフィルタリングする

監視の標準化で情報共有がスムーズの画像

リソースに関する不要な通知をなくす

リソースに関する不要な通知をなくすの画像

  • お問い合わせの電話番号
  • お問い合わせの電話番号2
  • お問い合わせフォーム
to top