

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 用于 CloudWatch 监控和分析训练作业的 Amazon 指标
<a name="training-metrics"></a>

Amazon SageMaker 训练作业是一个迭代过程，它通过展示训练数据集中的示例来教导模型做出预测。通常情况下，训练算法计算几个指标，例如训练错误和预测准确度。这些指标有助于诊断模型的学习效果是否良好，以及针对未看到的数据进行预测是否将实现很好的泛化。训练算法将这些指标的值写入日志， SageMaker AI 会实时监控这些日志并将其发送到 Amazon CloudWatch 。要分析训练作业的性能，您可以在 CloudWatch 中查看这些指标的图表。当训练作业已完成时，您还可以获得它通过调用 [https://docs.amazonaws.cn/sagemaker/latest/APIReference/API_DescribeTrainingJob.html](https://docs.amazonaws.cn/sagemaker/latest/APIReference/API_DescribeTrainingJob.html) 操作在其最终迭代中计算的度量值的列表。

**注意**  
Amazon CloudWatch 支持[高分辨率的自定义指标](https://docs.amazonaws.cn/AmazonCloudWatch/latest/monitoring/publishingMetrics.html)，其最佳分辨率为 1 秒。但是，分辨率越高， CloudWatch 指标的寿命越短。对于 1 秒频率分辨率，这些 CloudWatch 指标的可用时间为 3 小时。有关分辨率和 CloudWatch 指标寿命的更多信息，请参阅 *Amazon CloudWatch API 参考[GetMetricStatistics](https://docs.amazonaws.cn/AmazonCloudWatch/latest/APIReference/API_GetMetricStatistics.html)*中的。

**提示**  
[如果您想以更精细的分辨率来描述您的训练作业，精度低至 100 毫秒（0.1 秒），并将训练指标无限期存储在 Amazon S3 中以便随时进行自定义分析，请考虑使用 Amazon Debugger。 SageMaker ](https://docs.amazonaws.cn/sagemaker/latest/dg/train-debugger.html) SageMaker Debugger 提供内置规则来自动检测常见的训练问题；它可以检测硬件资源利用率问题（例如 CPU、GPU 和 I/O 瓶颈）和非收敛模型问题（例如过度拟合、梯度消失和张量爆炸等）。 SageMaker 调试器还通过 Studio Classic 及其分析报告提供可视化效果。要探索调试器可视化效果，请参阅 D [SageMaker ebugger Insights 仪表板演练](https://docs.amazonaws.cn/sagemaker/latest/dg/debugger-on-studio-insights-walkthrough.htm)、[调试器分析报告演练](https://docs.amazonaws.cn/sagemaker/latest/dg/debugger-profiling-report.html#debugger-profiling-report-walkthrough)和[使用客户端库分析数据](https://docs.amazonaws.cn/sagemaker/latest/dg/debugger-analyze-data.html)。 SMDebug 

**Topics**
+ [定义训练指标](define-train-metrics.md)
+ [查看训练作业指标](view-train-metrics.md)
+ [示例：查看训练和验证曲线](train-valid-curve.md)