4.2.15. AIインフラストラクチャー監視[EXTENSION]

AIインフラストラクチャー監視では、AI、機械学習、ハイパフォーマンス・コンピューティングに関する監視を行うことができます。 NVIDIA GPUに対して定期的にデータ取得を行い、しきい値監視することができます。

注釈

運用管理サーバーおよび、監視を行う管理対象ノードに、Senju DevOperation Conductor Extension Packの適用が必要です。詳細は、 Senju DevOperation Conductor Extension Packのインストール を参照して下さい。

監視の定義を千手ブラウザより登録し、監視を実施します。監視結果は、各種モニタ画面(グローバルノードモニタ/ノードモニタ)にてその監視状況を表示できます。予め設定したしきい値により障害を検知した場合は、メッセージモニタにメッセージが通知されます。

AIインフラストラクチャー監視を行うには、千手ブラウザのツリービューで、<ドメイン>→"ノードグループ"→"全体"を選択します。そして、リストビューからノードを選択し、マウスの右ボタンをクリックしてコンテキストメニューを表示し、[プロパティ]メニューを選択します。ノードのプロパティウィンドウが表示されますので、[拡張機能]タブを選択します。

../../_images/02_node_property_extention_aiinfrastructure.jpg

図 4.45 ノードのプロパティ([拡張機能]タブ)

定義の例としてここでは、「NVIDIA GPU:GPU使用率(%)」を登録し監視する場合について説明します。

「エクステンションごとのサマリ」フレームの一覧リストからカテゴリ名が「AIインフラストラクチャー」の行を選択します。「監視項目」フレームの一覧リストから監視項目名が「NVIDIA GPU:GPU使用率(%)」の行を選択して、[↓追加]ボタンを押下します。定義を作成するプロパティが開きます。

../../_images/02_monitoring_task_property_aiinfrastructure.jpg

図 4.46 監視タスクのプロパティ

判定条件やパラメータ値などの各項目を入力し[OK]ボタンを押下します。その後、ノードのプロパティウィンドウにて[OK]ボタンを押下します。これにより、各項目の監視タスクが登録され、監視を開始します。

監視した結果は、千手ブラウザで[ツール]→[グローバルノードモニタ]メニューを選択して表示される、グローバルノードモニタや、グローバルノードモニタから、ノードをダブルクリックして表示されるノードモニタにて確認できます。

../../_images/02_global_node_monitor_and_node_monitor_aiinfrastructure.jpg

図 4.47 グローバルノードモニタ 及びノードモニタ([拡張機能]タブ)

グローバルノードモニタでは、AIインフラストラクチャーの監視の結果は、AIインフラストラクチャーのカラムに監視タスク毎に正常数(警告数を含む)、異常数として表示されます。

ノードモニタの[拡張機能]タブの「監視タスク」フレームの一覧リストの「NVIDIA GPU:GPU使用率(%)」に監視結果が表示されます。また、監視タスクを選択することにより、監視の対象毎に取得した値と、その状態が「監視対象」フレームの一覧リストに表示されます。

各監視タスクの現在の状態や値がノードモニタに表示されます。適切な異常・警告しきい値の設定の参考にして下さい。

参考

  • グローバルノードモニタにAIインフラストラクチャーカラムが表示されていない場合は、グローバルノードモニタのビューの設定を変更します。詳細は、 ビュー設定ダイアログ を参照して下さい。

  • AIインフラストラクチャー監視を行うには、事前作業が必要です。詳細は、 Extension Pack のマニュアル 「AI Infrastructure Monitoring」 を参照して下さい。