10.3. AIインフラストラクチャー監視(NVIDIA GPU)監視設定手順と使い方

NVIDIA GPU監視設定を行う際には、以下の設定が必要になります。

  • ライセンスの購入とライセンスキーの入手
    • NVIDIA GPU監視

  • Senju DevOperation Conductor Extension Packの入手と適用
    運用管理サーバーおよび、コンテナ監視を行う管理対象ノードに、同一バージョンの Senju DevOperation Conductor Extension Pack の適用が必要です。
    • 運用管理サーバー(千手マネージャ)への適用(監視項目の更新)

    • 管理対象ノード(千手エージェント(プローブノード))への適用(情報取得コマンドの更新)

警告

適用可能な Senju DevOperation Conductor のバージョンやパッチ状況に制限がある場合があります。詳しくは、Senju DevOperation Conductor Extension Pack の README をご参照下さい。

参考

Senju DevOperation Conductor Extension Packの適用手順につきましては、Senju DevOperation Conductor Extension Pack の README をご参照ください。

注釈

Senju DevOperation Conductor Extension Packの適用に際しては、千手システムの停止は不要ですが、関連する監視タスクの停止が必要です。

10.3.1. 設定

  • 説明

    モニタリングサブシステムを用いてNVIDIA GPUの監視項目を使用するための設定を行います。

  • 設定手順

    NVIDIA GPU監視を設定するには以下の手順が必要です。

10.3.1.1. nvidia-smiのインストール

NVIDIA GPUの監視項目を利用するために、監視対象ノードに事前にnvidia-smiコマンドをインストールして下さい。

参考

nvidia-smiについては、下記のWEBサイトを参照して下さい。

https://developer.nvidia.com/nvidia-system-management-interface

10.3.2. 使い方

10.3.2.1. NVIDIA GPU監視機能

nvidia-smiコマンド経由で情報を取得し、Senju DevOperation Conductorのモニタリング機能を使って、監視することができます。

監視定義を千手ブラウザより登録し、監視を実施します。監視結果は、各種モニタ画面(グローバルノードモニタ/ノードモニタ)にてその監視状況を表示できます。予め設定したしきい値により障害を検知した場合は、メッセージモニタにメッセージが通知されます。(モニタリング機能については、ユーザーズガイド「 4.モニタリング 」を参照して下さい。)

10.3.2.2. 使用上の制限事項

  • NVIDIA GPU監視項目のパラメータにスペース、メタキャラクタを含む値を指定することはできません。

  • nvidia-smiコマンドでの取得値が「N/A」の場合、千手監視での取得値は「0」となります。