8. 障害時の対応¶
本章では、Senju DevOperation Conductorで検知される障害、及びSenju DevOperation Conductor自身のプロセス障害時などの対応方法のうち、 ユーザーズガイド「資料集」 の 「Q&A」 に載っていない、もしくはより詳しい対応方法をまとめています。
- 監視対象ノードからの応答が途絶えました
ネットワーク、ワークステーションのハードウェアあるいは、千手システムプロセスなどの障害時に、千手マネージャからは千手エージェントのノードがダウンしたように見えます。
一時的なネットワーク障害であれば、特に復旧の操作は必要ありません。
切り分け後、一時的なネットワーク障害、ワークステーションのハードウェアの障害以外の問題であると思われる場合は、以下の操作により復旧させて下さい。
障害状況
メッセージモニタの障害情報に
!ANM103 監視対象WSからの応答が途絶えました。
のメッセージが出力される。確認
ping、telnetなどで当該ノードと通信できることを確認して下さい。
UNIX/Linux版千手エージェント回復手順
千手ブラウザのツリービューの[コマンド]→[千手コマンド]→[共通/その他]の[システムの停止]を実行し、当該障害中のノード名を選択して、「実行」ボタンを押下して、千手システムの停止をして下さい。
次に、[システムの起動]を実行し、当該障害中のノード名を選択して「実行」ボタンを押下して、千手システムを起動して下さい。
Windows 版千手エージェント回復手順
- 当該Windows版千手エージェントのコマンドプロンプト画面から以下のコマンドを投入して下さい。
C:\>sj_stopsrv senju_ftu_<ユーザ名> C:\>sj_stopsrv senju_rexd_<ユーザ名> C:\>sj_stopsrv senju_main_<ユーザ名> C:\>sj_startsrv senju_main_<ユーザ名> C:\>sj_startsrv senju_rexd_<ユーザ名> C:\>sj_startsrv senju_ftu_<ユーザ名>
- システムエラーです。(ReadEventLog(6))
Windows版のSenju DevOperation Conductorのみ本現象が発生する可能性があります。
本現象は、連続的に発生しない限り特に対応する必要はなく、監視は続行されます。
障害状況
メッセージモニタの障害情報に
!SYSL04 システムエラーです。(ReadEventLog(6)。イベントログ(Application)が読み飛ばされた可能性があります。)
のメッセージが出力される。確認
同一ノードから連続的に上記メッセージが出力されないことを確認して下さい。
Windows版千手エージェント回復手順
特に回復操作は必要ありません。
- CPU使用率監視に関する
リソース監視による警告です
本現象は一時的に発生する可能性があります。継続して発生している場合には、以下の対応を行って下さい。
障害状況
メッセージモニタの障害情報に
!RES311 リソース監視による警告です。(ノードID:~,監視タスク名:CPU使用率…)
のメッセージが出力される。確認
グローバルノードモニタかノードモニタで該当ノードのCPU使用率が異常のままであることを確認して下さい。キャパシティ機能で稼働履歴を保存している場合は、グラフモニタでCPU使用率の高い状況が続いていることを確認して下さい。
回復手順
該当ノードでプロセスの稼働状況を見て、著しくCPU使用率が高いプロセスがいないか、確認して下さい。通常以上にCPUを使用していると思われる場合、該当ノードのシステム管理者と相談した上、プロセスを停止するなどの措置を行って下さい。
CPU使用率監視の閾値が低い場合、エラーにならないような値に設定変更して下さい。
- CPU使用率監視に関する
- ディスクの空き容量が不足しています
本現象は一時的に発生する可能性があります。継続的に発生する場合は、以下の対応を行って下さい。
障害状況
メッセージモニタの障害情報に
!RES001 ディスクの空き容量が不足しています。
のメッセージが出力される。確認
グローバルノードモニタかノードモニタで該当ノードのディスク情報が異常のままであることを確認して下さい。キャパシティで稼働履歴を保存している場合は、グラフモニタでディスク使用率や使用量の高い状態が続いていることを確認して下さい。
回復手順
該当ノードでディスクの使用状況を確認して下さい。| 該当ノードのシステム管理者と相談した上、ディスク空き容量を増やすなどの措置を行って下さい。
ディスク使用量監視の閾値が低い場合、エラーにならないような値に設定変更して下さい。
- メッセージ抜けが発生しました。
本現象は、連続的に大量のメッセージがメッセージモニタに出力された場合に起こる可能性があります。
障害状況
メッセージモニタの障害情報に
!ANM104 メッセージ抜けが発生しました。
のメッセージが出力される。回復手順
アプリケーションで大量にメッセージを出力している場合、メッセージの出力を減らして下さい。
ジョブ実行時などにSenju DevOperation Conductorの出力するメッセージが抜ける場合は、同時に稼働するジョブを制限するなど、ジョブ定義を変更して下さい。
- 履歴データ収集機能の初期設定に失敗しました。
千手システムが作成するMMFの内容が壊れた場合、このメッセージが出力されます。
障害状況
メッセージモニタの障害情報に
!ANMD61履歴データ収集機能の初期設定に失敗しました。
のメッセージが出力される。回復手順
千手システムを停止させた後、以下のMMFファイルを削除して下さい。
- UNIX/Linux
$SENJUHOME/unity_dat/mmf
以下の全ファイル
- Windows
%SENJUHOME%\unity_dat\mmf
以下の全ファイル
MMFは千手システム再起動時、自動的に再作成されます。
- 履歴データの追加/更新ができませんでした。
データベースアクセスプロセス(sjESD_Server)の SQL Server への接続試行がデフォルトの接続タイムアウト時間(15秒)内に完了しなかった場合、このメッセージが出力されます。
障害状況
メッセージモニタの障害情報に
履歴データの追加/更新ができませんでした。
のメッセージが出力される。回復手順
頻発する場合は接続タイムアウト時間を「60秒」に設定することを推奨します。
千手マネージャの
%SENJUHOME%\dat\sj_esd.ini
をメモ帳などのテキストエディタで開き、最終行にESD_LOGIN_TIMEOUT=60
の行を追加し保存します。千手ブラウザにて、千手データベースサービス稼働ノードに対して、以下を行います。
・反映(監視属性) の実施
・ノードモニタより、 sjESD_Server の再起動の実施。