使用 Amazon Debu SageMaker gger 调试和分析训练任务 - 亚马逊 SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon Debu SageMaker gger 调试和分析训练任务

使用 Amazon Debu SageMaker gger 实时调试、分析和监控训练作业,以检测非融合条件,通过消除瓶颈来优化资源利用率,缩短训练时间并降低机器学习模型的成本。

亚马逊 SageMaker 调试器功能

机器学习 (ML) 训练作业可能会出现系统瓶颈、过度拟合、激活函数饱和和和梯度消失等问题,这些问题可能会影响模型性能。

SageMaker 调试器会分析和调试训练作业,以帮助解决此类问题并提高机器学习模型的计算资源利用率和性能。Debugger 提供了在发现训练异常时发送警报、针对问题采取措施以及通过可视化收集的指标和张量来确定问题的根本原因的工具。

SageMaker 调试器支持 Apache MXNet PyTorch、 TensorFlow、和 XGBoost 框架。有关 SageMaker Debugger 支持的可用框架和版本的更多信息,请参阅支持的框架和算法


                亚马逊 SageMaker 调试器的工作原理概述。

概括此调试程序的工作流如下:

  1. 如果需要,使用sagemaker-debugger Python SDK 修改您的训练脚本。

  2. 使用 SageMaker 调试器配置 SageMaker 训练作业。

  3. 开始训练工作并实时监控训练问题。

  4. 获取警报并对培训问题立即采取行动。

  5. 接收培训报告、解决问题的建议以及对培训工作的见解。

  6. 探索对培训问题和瓶颈的深入分析。

  7. 考虑调试器提供的建议修复问题,然后重复步骤 1—5,直到优化模型并达到目标精度。

调 SageMaker 试器开发人员指南将引导您完成以下主题。