用于 CloudWatch 监控和分析训练作业的 Amazon 指标

Amazon SageMaker 训练作业是一个迭代过程，它通过展示训练数据集中的示例来教导模型做出预测。通常情况下，训练算法计算几个指标，例如训练错误和预测准确度。这些指标有助于诊断模型的学习效果是否良好，以及针对未看到的数据进行预测是否将实现很好的泛化。训练算法将这些指标的值写入日志， SageMaker AI 会实时监控这些日志并将其发送到 Amazon CloudWatch 。要分析训练作业的性能，您可以在 CloudWatch 中查看这些指标的图表。当训练作业已完成时，您还可以获得它通过调用 DescribeTrainingJob 操作在其最终迭代中计算的度量值的列表。

注意

Amazon CloudWatch 支持高分辨率的自定义指标，其最佳分辨率为 1 秒。但是，分辨率越高， CloudWatch 指标的寿命越短。对于 1 秒频率分辨率，这些 CloudWatch 指标的可用时间为 3 小时。有关分辨率和 CloudWatch 指标寿命的更多信息，请参阅 Amazon CloudWatch API 参考GetMetricStatistics中的。

提示

如果您想以更精细的分辨率来描述您的训练作业，精度低至 100 毫秒（0.1 秒），并将训练指标无限期存储在 Amazon S3 中以便随时进行自定义分析，请考虑使用 Amazon Debugger。 SageMaker SageMaker Debugger 提供内置规则来自动检测常见的训练问题；它可以检测硬件资源利用率问题（例如 CPU、GPU 和 I/O 瓶颈）和非收敛模型问题（例如过度拟合、梯度消失和张量爆炸等）。 SageMaker 调试器还通过 Studio Classic 及其分析报告提供可视化效果。要探索调试器可视化效果，请参阅 D SageMaker ebugger Insights 仪表板演练、调试器分析报告演练和使用客户端库分析数据。 SMDebug

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

使用 SageMaker AI 管理的温池

定义训练指标