10.2. AIインフラストラクチャー監視(NVIDIA GPU)の概要

AIインフラストラクチャー監視(NVIDIA GPU)機能では、NVIDIA GPUと連携し、AIインフラ基盤を監視するために、以下の機能を提供します。

  • NVIDIA GPUの各種情報についての監視

../_images/2.1_overview1.svg

図 10.1 Senju DevOperation Conductorと NVIDIA GPU との連携

各種情報取得機能では、Senju DevOperation Conductorモニタリング機能を使用して、NVIDIA GPUに対して定期的にデータ取得を行い、しきい値監視することが出来ます。 (モニタリング機能については、 ユーザーズガイド「4.モニタリング」 を参照して下さい。)

以下の2パターンによる監視構成を取ることができます。

  • 千手エージェント機能によるAIインフラストラクチャー監視

  • 千手センサー機能によるAIインフラストラクチャー監視

10.2.1. NVIDIA GPU監視機能の概要

NVIDIA GPUから情報取得する際には、nvidia-smiコマンド を実行して取得を行います。そのため、千手エージェントまたは千手センサー上で nvidia-smi コマンドを実行可能にする必要があります。 また、千手センサーの場合は、プローブノードからSSHでの接続ができる必要があります。

取得可能な項目については、NVIDIA GPU 監視項目一覧 を参照してください。