現状の課題
プライベートクラウド環境において、従来のようにOSレベルやハードウエアレベルの監視は行っているものの、仮想環境における監視の実績が少ないためそれだけで良いのか判断が難しい。例えば、仮想マシンはリソース監視をしているが、仮想サーバーホストのリソースはどのように監視するべきか判断が難しい。
仮想マシンと仮想サーバーホストは結びつきを持って稼働している。仮想マシンから障害イベントが発生すると、仮想マシン側の問題なのか、仮想サーバーホスト側の問題なのか一目で判断できない。また、どの仮想マシンが該当ホストで稼働しているのか、その仮想マシンが提供しているサービスは何か、これも一目では確認できない。マシン、ホスト、サービス、いずれも切り分けに時間がかかる。
さらにキャパシティ管理も課題である。各仮想サーバーホストがストレージを共有して利用しており、それぞれの担当者が仮想マシンの構築を行っている。このような運用を行っていると全体像が見えない。ディスク使用量増加の推移や、リソースが足りなくなるタイミングが把握できないのである。
解決策
仮想サーバーホストは、ボトルネックになる可能性が高いCPUの使用率、仮想メモリーの使用量、ネットワークI/Oを監視する。その際、ホスト上の仮想マシンの配置状況やオーバーコミット、制限の有無を考慮したしきい値を設ける。仮想サーバーホストと仮想マシンの両方に監視設計を行うことで、障害イベントが発生した際に障害原因の迅速な把握が可能となる。
仮想サーバーホストのキャパシティ管理は、リソース監視の結果を履歴データとして蓄積し分析する。これにより、リソース配分の最適化や基盤増強計画の策定に役立てることができる。

Senju Familyでの実践方法
Senju DevOperation Conductorでは「異常時アクション」「正常時アクション」機能を提供している。異常時アクションは正常な状態から異常な状態になった場合に一度だけイベントを通知し、復旧コマンドを実行する機能。正常時アクションはその逆。これらにより、同じイベントの複数通知を回避できる。
また、監視を実施する日や時間帯を設定できる「時間帯監視」機能も実装している。通知するイベントの定義で監視時間帯に従う設定にしておくことで、営業時間帯以外の不要なイベントを抑止する。
「時間帯別しきい値監視」を利用すれば、曜日ごとのスケジュールに従って監視を行うため、しきい値の変更や監視の一時停止/再開という作業も自動化できる。
これらの機能によりサーバーの使用状況に合わせた柔軟な監視が可能になる。
警告ステータス、警告しきい値設定を行うことで、異常になる前段階で2段階の監視を行い、警告レベルのメッセージを出力させ、事前に対応を行うことが可能となる。
また、「予兆監視」機能を利用することで、今までの監視履歴から値の増減傾向を予測し、将来的にしきい値を超える可能性がある場合に通知を行うことができる。
瞬間的な異常による通知をなくす方法として、「監視コマンドリトライ」、「異常判定保留」機能がある。監視コマンドリトライ機能では監視間隔内で15秒間隔でリトライを行い、その中で正常に監視できるようになればそのタイミングの監視結果を正常とすることができる。 異常判定保留機能では、監視間隔ごとに連続して異常判定したものをエラーとして扱い、単発のエラーを抑止することができる。

