文件名称:gpu-monitoring-tools:用于在Linux上监视NVIDIA GPU的工具
文件大小:3.5MB
文件格式:ZIP
更新时间:2024-03-01 20:07:41
C
NVIDIA GPU监控工具 该存储库包含Golang绑定和DCGM-Exporter,用于在Kubernetes中收集GPU遥测。 绑定 为以下两个库提供了Golang绑定: 是基于C的API,用于监视和管理NVIDIA GPU设备。 是一组用于在集群环境中管理和监视NVIDIA GPU的工具。 它是一种低开销的工具套件,可在每个主机系统上执行各种功能,包括主动运行状况监视,诊断,系统验证,策略,电源和时钟管理,组配置和计费。 您还将在此存储库中找到这两个绑定的样本。 DCGM出口商 该存储库还包含DCGM-Exporter。 它利用为GPU指标导出。 快速开始 要在GPU节点上收集指标,只需启动dcgm-exporter容器: $ docker run -d --gpus all --rm -p 9400:9400 nvidia/dcgm-exporter:2.0.13-2.1