不要なイベントを抑止したい (リソース監視)

現状の課題

システムの安定運用を保証するにはリソース使用状況を常に監視する必要があるが、
監視のやり方によっては大量の障害イベントが発行される恐れがある。

【事例】ディスク使用量の監視

ディスク使用量の監視で説明する。ディスク使用量がしきい値を超えた場合、当然 ディスクの増設をすることになるが、
それには時間が掛かることがある。ディスクに空きができるまでは当然異常となり、監視を実施するたびに障害イベント
が発行されることになる。大量のイベントは、オペレーションエンジニアが他の重要なイベントを見落とすリスクとなり、
またオペレーションエンジニアから昼夜を問わずコールがあれば基盤担当者は疲弊する。

【事例】CPU使用率の監視

次に、CPU 使用率のケースを紹介する。1 台のサーバを、日中はオンライン処理用、 夜間はバッチ処理用に使っているとする。
オンライン処理時に障害が発生するとユー ザへの影響が大きいので、CPU 使用率のしきい値を余裕のある
50%に設定したとす る。このとき、夜間バッチ処理をできるだけ早く終わらせることを想定し、CPU リソ ースを最大まで
利用する設計にしていたとする。すると、CPU 使用率のしきい値を超 えてイベントの大量発行になる。
だからといって、しきい値を高めに設定すると、オ ンライン時の障害に気付けなくなるというジレンマが生じる。

解決策

リソース使用量がしきい値を超えた場合、一度だけイベントを発行するように設定 する。そのイベントを受け取ったら、
サーバ状態を管理することで対応状況を把握す る。営業時間のみ障害対応すればいい場合、営業時間以外は監視を継続
するがイベント通知はしない設定にしておく。営業時間になっても解決していない障害は、その時 になってイベントを
通知する。こうすることで、不要なイベントを抑止できる。

サーバの用途が異なる場合は、その利用時間・傾向に合わせたしきい値の設定をし ておく。
CPU 使用率の高い夜間バッチ実行時には 99%に、バッチジョブが終了した ら 10%に、
そしてオンライン処理起動後には 50%というように時間ごとに値を変え る。こうすることで、無駄なイベントの抑止、
障害の見落としを防止することが可能 になる。

リソースに関する不要な通知をなくす

リソースに関する不要な通知をなくす

Senju Family での実践方法

Senju Operation Conductor では「異常時アクション」「正常時アクション」機能を提供している。
異常時アクションは正常な状態から異常な状態になった場合に一度だ けイベントを通知し、復旧コマンドを
実行する機能。正常時アクションはその逆。これらにより、同じイベントの複数通知を回避できる。

また、監視を実施する日や時間帯を設定できる「時間帯監視」機能も実装している。
通知するイベントの定義で監視時間帯に従う設定にしておくことで、営業時間帯以外 のイベントを抑止する。

「時間帯別しきい値監視」を利用すれば、曜日ごとのスケジュールに従って監視を行うため、
しきい値の変更や監視の一時停止/再開という作業も自動化できる。
これらの機能によりサーバの用途に合わせた柔軟な監視が可能になる。

正常時・異常時のアクションを設定

正常時・異常時のアクションを設定

システム監視Tips

  • お問い合わせの電話番号
  • お問い合わせの電話番号2
  • お問い合わせフォーム
to top