

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 监控
<a name="tutorial-gpu-monitoring"></a>

您的 DLAMI 已预安装多个 GPU 监控工具。本指南还将介绍可用于下载和安装的工具。
+ [GPUs 使用监视器 CloudWatch](tutorial-gpu-monitoring-gpumon.md)-预装的实用程序，可向 Amazon CloudWatch 报告 GPU 使用情况统计信息。
+ [nvidia-smi CLI](https://developer.nvidia.com/nvidia-system-management-interface) — 一个监控总体 GPU 计算和内存利用率的实用工具。它已预先安装在你的 Amazon Deep Learning AMIs (DLAMI) 上。
+ [NVML C 库](https://developer.nvidia.com/nvidia-management-library-nvml) - 一个基于 C 的 API，可直接访问 GPU 监控和管理功能。此项已在后台由 nvidia-smi CLI 所使用且已预安装在您的 DLAMI 上。它还具有 Python 和 Perl 绑定以方便采用这些请求进行开发。你的 DLAMI 上预装的 gpumon.py 实用程序使用的是来自的 pynvml 包。[nvidia-ml-py](https://pypi.org/project/nvidia-ml-py/)
+ [NVIDIA DCGM](https://developer.nvidia.com/data-center-gpu-manager-dcgm) - 一个集群管理工具。请访问开发人员页面，了解如何安装和配置此工具。

**提示**  
请查看 NVIDIA 的开发人员博客，了解有关使用已安装在您的 DLAMI 上的 CUDA 工具的最新信息。  
[使用 Nsight IDE 和 nvprof 监控 TensorCore 利用率](https://devblogs.nvidia.com/using-nsight-compute-nvprof-mixed-precision-deep-learning-models/)。