深度学习 AMI
开发人员指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

监控

您的 DLAMI 已预安装多个 GPU 监控工具。本指南还将介绍可用于下载和安装的工具。

  • 使用 CloudWatch 监控 GPU - 一个预安装的实用工具,可向 CloudWatch 报告 GPU 使用情况统计数据。

  • nvidia-smi CLI - 一个监控总体 GPU 计算和内存利用率的实用工具。此项已预安装在您的 DLAMI 上。

  • NVML C 库 - 一个基于 C 的 API,可直接访问 GPU 监控和管理功能。此项已在后台由 nvidia-smi CLI 所使用且已预安装在您的 DLAMI 上。它还具有 Python 和 Perl 绑定以方便采用这些请求进行开发。已预安装在您的 DLAMI 上的 gpumon.py 实用工具使用 nvidia-ml-py 中的 pynvml 程序包。

  • NVIDIA DCGM - 一个集群管理工具。请访问开发人员页面,了解如何安装和配置此工具。

提示

请查看 NVIDIA 的开发人员博客,了解有关使用已安装在您的 DLAMI 上的 CUDA 工具的最新信息。