35. NPD の Custom Plugin (1/2)
GPU
● nvidia-smi コマンドで出力されるログをもとに、障害の有無を判断
Pod (プロセス)
● ノード上のプロセスの State (Running, Sleep, Stopped, ...) 、Docker
コンテナ、Pod の情報を取得
● どの Pod のどのプロセスが、どんな State にあるかを監視
● 削除済みの Pod のプロセスが D state の場合、異常と判断
35
$ nvidia-smi
...
Unable to determine the device handle for GPU 0000:1C:00.0: GPU is lost. Reboot the system to
recover this GPU