在 Amazon SageMaker Studio 中监控 Amazon 计算资源利用率 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 Amazon SageMaker Studio 中监控 Amazon 计算资源利用率

要跟踪训练作业的计算资源利用率,请使用 Amazon SageMaker Debugger 提供的监控工具。

对于您使用 SageMaker Python SDK 在 SageMaker 中运行的任何训练作业,Debugger 会每 500 毫秒收集一次基本的资源利用率指标,例如 CPU 利用率、GPU 利用率、GPU 内存利用率、网络和 I/O 等待时间。要查看训练作业的资源利用率指标控制面板,只需使用 SageMaker Studio Experiments 中的 SageMaker Debugger UI 即可。

深度学习操作和步骤可能以毫秒为间隔运行。Amazon CloudWatch 以 1 秒为间隔收集指标,与之相比,Debugger 能够提供更精细的资源利用率指标,间隔低至 100 毫秒(0.1 秒),方便您深入研究操作或步骤级别的指标。

如果要更改指标收集时间间隔,您可以向训练作业启动程序中添加用于分析配置的参数。例如,如果您使用的是 SageMaker Python SDK,则需要在创建估算器对象时传递 profiler_config 参数。要了解如何调整资源利用率指标收集间隔,请参阅在 SageMaker Python SDK 中,用于通过 SageMaker Debugger Python 模块配置 SageMaker 估算器对象的代码模板以及 配置设置以对系统资源利用率进行基本分析

此外,您还可以添加由 SageMaker Debugger 提供的名为内置分析规则的问题检测工具。内置分析规则对资源利用率指标进行分析,检测计算性能问题。有关更多信息,请参阅 配置由 Amazon SageMaker Debugger 管理的内置探查器规则。您可以通过 SageMaker Studio Experiments 中的 SageMaker Debugger UISageMaker Debugger 分析报告接收规则分析结果。您还可以使用 SageMaker Python SDK 创建自定义分析规则。

要了解有关 SageMaker Debugger 提供的监控功能的更多信息,请参阅以下主题。