分析和优化计算性能 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分析和优化计算性能

在训练规模快速增长的最先进的深度学习模型时,将此类模型的训练作业扩展到大型 GPU 集群,并在梯度下降过程的每次迭代中从数十亿、数万亿次操作和通信中识别计算性能问题成为一项挑战。

SageMaker AI 提供分析工具来可视化和诊断在 Amazon 云计算资源上运行训练作业所产生的此类复杂的计算问题。SageMaker AI 提供了两个分析选项:Amazon SageMaker 探查器和 Amazon SageMaker Studio Classic 中的资源利用率监视器。请参阅这两项功能的以下说明以快速获得洞察,并根据您的需求了解要使用哪项功能。

Amazon SageMaker 探查器

Amazon SageMaker 探查器是 SageMaker AI 的一项分析功能,可用于深入探究在训练深度学习模型时预调配的计算资源,并深入了解操作级别的细节。SageMaker 探查器提供了 Python 模块,用于在 Pytorch 或 TensorFlow 训练脚本中添加注释以及激活 SageMaker 探查器。您可以通过 SageMaker Python SDK 和 Amazon 深度学习容器访问这些模块。

利用 SageMaker 探查器,您可以跟踪 CPU 和 GPU 上的所有活动,例如 CPU 和 GPU 使用率、GPU 上的内核运行、CPU 上的内核启动、同步操作、CPU 和 GPU 之间的内存操作、内核启动和相应运行之间的延迟,以及 CPU 和 GPU 之间的数据传输。

SageMaker 探查器还提供可视化配置文件的用户界面 (UI)、已分析事件的统计摘要以及用于跟踪和理解 GPU 和 CPU 之间事件的时间关系的训练作业时间表。

要了解有关 SageMaker 探查器的更多信息,请参阅Amazon SageMaker 探查器

在 Amazon SageMaker Studio Classic 中监控 Amazon 计算资源

SageMaker AI 还在 Studio Classic 中提供了一个用户界面来从较高层面监控资源利用率,但与从 SageMaker AI 收集到 CloudWatch 的默认利用率指标相比,它的粒度更细。

对于您使用 SageMaker Python SDK 在 SageMaker AI 中运行的任何训练作业,SageMaker AI 将开始分析基本资源利用率指标,例如 CPU 利用率、GPU 利用率、GPU 内存利用率、网络和 I/O 等待时间。它每 500 毫秒收集一次这些资源利用率指标。

Amazon CloudWatch 以 1 秒为间隔收集指标,与之相比,SageMaker AI 的监控功能可提供更精细的资源利用率指标,间隔低至 100 毫秒(0.1 秒),便于您深入探究操作或步骤级别的指标。

要访问用于监控训练作业的资源利用率指标的控制面板,请参阅 SageMaker AI Debugger UI in SageMaker Studio Experiments