在 Amazon SageMaker Studio 经典版中监控 Amazon 计算资源利用率 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon SageMaker Studio 经典版中监控 Amazon 计算资源利用率

要跟踪训练作业的计算资源利用率,请使用 Amazon SageMaker Debugger 提供的监控工具。

对于您 SageMaker 使用 SageMaker Python SDK 运行的任何训练作业,调试器会每 500 毫秒收集基本的资源利用率指标,例如 CPU 利用率、GPU 利用率、GPU 内存利用率、网络和 I/O 等待时间。要查看训练作业的资源利用率指标的仪表板,只需使用 Studio 实验中的SageMaker SageMaker 调试器用户界面即可。

深度学习操作和步骤可能以毫秒为间隔运行。与以 1 秒为间隔收集指标的 Amazon CloudWatch 指标相比,Debugger 可以更精细地了解资源利用率指标,间隔低至 100 毫秒(0.1 秒),因此您可以深入了解操作或步骤级别的指标。

如果要更改指标收集时间间隔,您可以向训练作业启动程序中添加用于分析配置的参数。例如,如果您使用的是 SageMaker Python SDK,则需要在创建估算器对象时传递profiler_config参数。要了解如何调整资源利用率指标收集间隔,请参阅用于在 Python SDK 中使用 SageMaker 调试器 Python 模块配置 SageMaker 估算器对象的 SageMaker代码模板以及 配置设置以对系统资源利用率进行基本分析

此外,您还可以添加由 SageMaker 调试器提供的称为内置分析规则的问题检测工具。内置分析规则对资源利用率指标进行分析,检测计算性能问题。有关更多信息,请参阅配置由 Amazon SageMaker 调试器管理的内置分析器规则。您可以通过 SageMaker Studio 实验中的SageMaker 调试器用户界面或调SageMaker 试器分析报告接收规则分析结果。您也可以使用 SageMaker Python 软件开发工具包创建自定义分析规则。

要了解有关 D SageMaker ebugger 提供的监视功能的更多信息,请参阅以下主题。