NRI 野村総合研究所
ジョブ管理の技7

ジョブ異常時の原因切り分けや復旧対応を自動化し
運用の負荷軽減を行いたい

現状の課題

ジョブの異常を早い段階で検知しようとすると、システムのわずかな変化も把握するために、監視項目が増えイベントが増えてしまう。その中には、対応不要なイベントもたくさん含まれる。イベントの内容を確認し、切り分ける作業は非常に手間が掛かり、ミスも発生する。特に、同じイベントでも発生した時間帯やシステムによって対応が異なるような場合は、人による判断が必要になり手間と時間が掛かってしまう。
切り分けを行った後は、対応手順書に従って対応する。だが対応手順書は日々更新されるため、最新版を確認しながらの作業が必要になる。開発部門にてイベントの切り分け条件や対応手順書を作成し、運用部門が受け入れている場合、運用部門は常に最新版の運用手順の確認が必要になる。また、手順が変更された場合はオペレーションミスの可能性が高まるので、より注意深い作業が求められる。

解決策

大量な対応不要イベントの切り分け処理や、手順書の維持管理を軽減するには、高度な切り分けとオペレーションの自動化が必要である。そこで適用するのが「ランブックオートメーション」である。ランブックオートメーションとは、手作業によって行われているシステムの運用オペレーションをワークフロー化し、ワークフローの実行・管理・レポートを自動化することにより、運用の効率性を高める機能である。ジョブ異常時におけるランブックオートメーションは、障害の検知から切り分け、対応までの一連のフローを「自動化」する。

Senju Familyでの実践方法

enju DevOperation Conductorは、「メッセージアクション」機能により、発生したイベント(メッセージ)の切り分けを行い、結果に応じたアクションを自動的に行う。切り分け条件には、「発生サーバー/プロセス」「スケジュール(時間帯・曜日)」「メッセージID」「メッセージ内容」など、さまざまな条件を指定することができる。
また、アクションとしては、「メールを送信する」「電話を発信する」などのアウトバウンドや、後述する「ランブックオートメーションの実行」などが指定できる。この機能を適用することにより、オペレーションエンジニアが行っている、イベントの内容とイベント切り分け表の突き合わせ作業を自動化できる。
より複雑な切り分けが必要な場合は「ランブックオートメーション」機能を使う。システム診断・復旧作業、サーバー維持管理作業など、手順書に従い実施するオペレーション(出力内容やタイミングなど人の判断を要する部分)を自動で行い、1次対応までを自動実行する機能である。  分かりやすいインタフェースで、切り分け・対応のワークフローを作成して使う。コマンドを実行する部品や切り分け結果に応じて後続処理を分岐する部品を配置し、先行・後続関係を作成する。このワークフローを自動実行することで、手順書の自動化を実現する。メール送信、電話発信など、よく使われる切り分け・対応コマンドはテンプレートとして用意されている。また、終了コード、標準出力、スケジュールなどにより分岐できるため、人の判断が求められるような複雑な状況にも柔軟に対応できる。ワークフローの進行状況や実行履歴もビジュアルなインタフェースで確認することができる。
なお、「メッセージアクション」や「ランブックオートメーション」の定義は、千手オフライザというオフラインツールで作成・参照できる。このツールは本番運用環境につながっていないので、開発部門が利用できる。開発部門がツールを使って設計し、その結果をファイルにして運用部門に渡すだけで、運用手順を確実に変更することができる。

図1
ジョブの技 資料一式ダウンロード ツール活用術一覧へ戻る
Contact

Senju Family / mPLATに関するお問い合わせ

ご購入前の製品・サービスに関するお問合せは
Senjuインフォメーションセンター までお願いします。

お問い合わせフォームはこちら

フリーダイヤル・メールでもお受けしております。

0120-736-580

受付時間 平日10:00〜17:00 土日祝祭日、弊社休日を除く

senjuinfo@nri.co.jp