10.3. AIインフラストラクチャー監視(NVIDIA GPU)監視設定手順と使い方¶
NVIDIA GPU監視設定を行う際には、以下の設定が必要になります。
- ライセンスの購入とライセンスキーの入手
NVIDIA GPU監視
- Senju DevOperation Conductor Extension Packの入手と適用
- 運用管理サーバーおよび、コンテナ監視を行う管理対象ノードに、同一バージョンの Senju DevOperation Conductor Extension Pack の適用が必要です。
運用管理サーバー(千手マネージャ)への適用(監視項目の更新)
管理対象ノード(千手エージェント(プローブノード))への適用(情報取得コマンドの更新)
警告
適用可能な Senju DevOperation Conductor のバージョンやパッチ状況に制限がある場合があります。詳しくは、Senju DevOperation Conductor Extension Pack の README をご参照下さい。
参考
Senju DevOperation Conductor Extension Packの適用手順につきましては、Senju DevOperation Conductor Extension Pack の README をご参照ください。
注釈
Senju DevOperation Conductor Extension Packの適用に際しては、千手システムの停止は不要ですが、関連する監視タスクの停止が必要です。
10.3.1. 設定¶
- 説明
モニタリングサブシステムを用いてNVIDIA GPUの監視項目を使用するための設定を行います。
- 設定手順
NVIDIA GPU監視を設定するには以下の手順が必要です。
10.3.1.1. nvidia-smiのインストール¶
NVIDIA GPUの監視項目を利用するために、監視対象ノードに事前にnvidia-smiコマンドをインストールして下さい。
参考
- nvidia-smiについては、下記のWEBサイトを参照して下さい。
https://developer.nvidia.com/nvidia-system-management-interface
10.3.2. 使い方¶
10.3.2.1. NVIDIA GPU監視機能¶
nvidia-smiコマンド経由で情報を取得し、Senju DevOperation Conductorのモニタリング機能を使って、監視することができます。
監視定義を千手ブラウザより登録し、監視を実施します。監視結果は、各種モニタ画面(グローバルノードモニタ/ノードモニタ)にてその監視状況を表示できます。予め設定したしきい値により障害を検知した場合は、メッセージモニタにメッセージが通知されます。(モニタリング機能については、ユーザーズガイド「 4.モニタリング 」を参照して下さい。)
10.3.2.2. 使用上の制限事項¶
NVIDIA GPU監視項目のパラメータにスペース、メタキャラクタを含む値を指定することはできません。
nvidia-smiコマンドでの取得値が「N/A」の場合、千手監視での取得値は「0」となります。