分析和优化计算性能 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分析和优化计算性能

在训练规模迅速增长的 state-of-the-art 深度学习模型时,将此类模型的训练任务扩展到大型 GPU 集群,以及从梯度下降过程的每次迭代中数十亿次操作和通信中识别出计算性能问题成为一项挑战。

SageMaker 提供分析工具,用于可视化和诊断在 Amazon 云计算资源上运行训练作业所产生的此类复杂计算问题。有两种分析选项可供选择:Amazon SageMaker Profiler 和 Amazon Studio Classic 中的资源利用率监控器。 SageMaker SageMaker 请参阅这两项功能的以下说明以快速获得洞察,并根据您的需求了解要使用哪项功能。

Amazon P SageMaker rofiler

Amazon SageMaker Profiler 是一种分析功能,您可以使用它深入研究在训练深度学习模型时配置的计算资源,并深入了解操作级别的细节。 SageMaker SageMaker Profiler 提供了 Python 模块,用于在脚本中添加注释 PyTorch 或 TensorFlow 训练脚本并激活 P SageMaker rofiler。你可以通过 SageMaker Python SDK 和 Dee Amazon p Learning Containers 访问这些模块。

使用 P SageMaker rofiler,您可以跟踪 CPU 和 GPU 上的所有活动,例如 CPU 和 GPU 利用率、GPU 上的内核运行、CPU 上的内核启动、同步操作、CPU 和 GPU 之间的内存操作、内核启动和相应运行之间的延迟,以及 CPU 和 GPU 之间的数据传输。

SageMaker Profiler 还提供可视化配置文件的用户界面 (UI)、已分析事件的统计摘要以及用于跟踪和理解 GPU 和 CPU 之间事件的时间关系的训练作业时间表。

要了解有关 SageMaker Profiler 的更多信息,请参阅使用 Amazon SageMaker Profiler 来分析 Amazon 计算资源上的活动

在 Amazon SageMaker Studio 经典版中监控 Amazon 计算资源

SageMaker 还在 Studio Classic 中提供了一个用户界面,用于监控高级资源利用率,但与从 SageMaker 到 CloudWatch收集的默认利用率指标相比,精度更高。

对于您 SageMaker 使用 SageMaker Python SDK 运行的任何训练作业,都要 SageMaker 开始分析基本的资源利用率指标,例如 CPU 利用率、GPU 利用率、GPU 内存利用率、网络和 I/O 等待时间。它每 500 毫秒收集一次这些资源利用率指标。

与以 1 秒 SageMaker 为间隔收集指标的 Amazon CloudWatch 指标相比,的监控功能可以更精细地了解资源利用率指标,间隔低至 100 毫秒(0.1 秒),因此您可以深入了解操作或步骤级别的指标。

要访问用于监控训练作业资源利用率指标的仪表板,请参阅 SageMaker Studio 实验中的SageMaker调试器用户界面