

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在 Amazon SageMaker Studio Classic 中监控 Amazon 计算资源利用率
<a name="debugger-profile-training-jobs"></a>

要跟踪训练作业的计算资源利用率，请使用 Amazon SageMaker Debugger 提供的监控工具。

对于您使用 SageMaker Python SDK 在 SageMaker AI 中运行的任何训练作业，Debugger 会每 500 毫秒收集一次基本的资源利用率指标，例如 CPU 利用率、GPU 利用率、GPU 内存利用率、网络和 I/O 等待时间。要查看训练作业的资源利用率指标控制面板，只需使用 [SageMaker Studio Experiments 中的 SageMaker Debugger UI](https://docs.amazonaws.cn/sagemaker/latest/dg/debugger-on-studio.html) 即可。

深度学习操作和步骤可能以毫秒为间隔运行。Amazon CloudWatch 以 1 秒为间隔收集指标，与之相比，Debugger 能够提供更精细的资源利用率指标，间隔低至 100 毫秒（0.1 秒），方便您深入研究操作或步骤级别的指标。

如果要更改指标收集时间间隔，您可以向训练作业启动程序中添加用于分析配置的参数。例如，如果您使用的是 SageMaker AI Python SDK，则需要在创建估算器对象时传递 `profiler_config` 参数。要了解如何调整资源利用率指标收集间隔，请参阅[用于在 SageMaker AI Python SDK 中使用 Deb SageMaker ugger Python 模块配置 SageMaker AI 估算器对象的代码模板](debugger-configuration-for-profiling.md#debugger-configuration-structure-profiler)以及 [配置设置以对系统资源利用率进行基本分析](debugger-configure-system-monitoring.md)。

此外，您还可以添加由 SageMaker Debugger 提供的名为*内置分析规则*的问题检测工具。内置分析规则对资源利用率指标进行分析，检测计算性能问题。有关更多信息，请参阅 [使用由 Amazon SageMaker Debugger 管理的内置分析器规则](use-debugger-built-in-profiler-rules.md)。您可以通过 [SageMaker Studio Experiments 中的 SageMaker Debugger UI](https://docs.amazonaws.cn/sagemaker/latest/dg/debugger-on-studio.html) 或 [SageMaker Debugger 分析报告](https://docs.amazonaws.cn/sagemaker/latest/dg/debugger-profiling-report.html)接收规则分析结果。您还可以使用 SageMaker Python SDK 创建自定义分析规则。

要了解有关 SageMaker Debugger 提供的监控功能的更多信息，请参阅以下主题。

**Topics**
+ [使用使用 Amazon Deb SageMaker ugger Python 模块进行基本分析的估算器配置](debugger-configuration-for-profiling.md)
+ [使用由 Amazon SageMaker Debugger 管理的内置分析器规则](use-debugger-built-in-profiler-rules.md)
+ [Debugger 内置探查器规则列表](debugger-built-in-profiler-rules.md)
+ [亚马逊 SageMaker Studio 经典实验中的亚马逊 SageMaker 调试器用户界面](debugger-on-studio.md)
+ [SageMaker 调试器交互式报告](debugger-profiling-report.md)
+ [使用 Debugger Python 客户端库分析数据](debugger-analyze-data.md)