View a markdown version of this page

监控 Amazon Amazon SageMaker Studio 经典版中的计算资源利用率 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控 Amazon Amazon SageMaker Studio 经典版中的计算资源利用率

要跟踪训练作业的计算资源利用率,请使用 Amazon SageMaker Debugger 提供的监控工具。

对于您使用 SageMaker Python SDK 在 SageMaker AI 中运行的任何训练作业,调试器会每 500 毫秒收集基本的资源利用率指标,例如 CPU 利用率、GPU 利用率、GPU 内存利用率、网络和 I/O 等待时间。要查看训练作业的资源利用率指标的仪表板,只需使用 Studio 实验中的SageMaker SageMaker 调试器用户界面即可。

深度学习操作和步骤可能以毫秒为间隔运行。与以 1 秒为间隔收集指标的 Amazon CloudWatch 指标相比,Debugger 可以更精细地了解资源利用率指标,间隔低至 100 毫秒(0.1 秒),因此您可以深入了解操作或步骤级别的指标。

如果要更改指标收集时间间隔,您可以向训练作业启动程序中添加用于分析配置的参数。例如,如果您使用的是 SageMaker AI Python SDK,则需要在创建估算器对象时传递profiler_config参数。要了解如何调整资源利用率指标收集间隔,请参阅用于在 SageMaker AI Python SDK 中使用 Deb SageMaker ugger Python 模块配置 SageMaker AI 估算器对象的代码模板以及 配置设置以对系统资源利用率进行基本分析

此外,您还可以添加由 SageMaker 调试器提供的称为内置分析规则的问题检测工具。内置分析规则对资源利用率指标进行分析,检测计算性能问题。有关更多信息,请参阅 使用由 Amazon SageMaker Debugger 管理的内置分析器规则。您可以通过 SageMaker Studio 实验中的SageMaker 调试器用户界面或调SageMaker 试器分析报告接收规则分析结果。您也可以使用 SageMaker Python 软件开发工具包创建自定义分析规则。

要了解有关 D SageMaker ebugger 提供的监视功能的更多信息,请参阅以下主题。