本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Amazon Debu SageMaker gger 调试和分析训练任务
使用 Amazon Debu SageMaker gger 实时调试、分析和监控训练作业,以检测非融合条件,通过消除瓶颈来优化资源利用率,缩短训练时间并降低机器学习模型的成本。
亚马逊 SageMaker 调试器功能
机器学习 (ML) 训练作业可能会出现系统瓶颈、过度拟合、激活函数饱和和和梯度消失等问题,这些问题可能会影响模型性能。
SageMaker 调试器会分析和调试训练作业,以帮助解决此类问题并提高机器学习模型的计算资源利用率和性能。Debugger 提供了在发现训练异常时发送警报、针对问题采取措施以及通过可视化收集的指标和张量来确定问题的根本原因的工具。
SageMaker 调试器支持 Apache MXNet PyTorch、 TensorFlow、和 XGBoost 框架。有关 SageMaker Debugger 支持的可用框架和版本的更多信息,请参阅支持的框架和算法。

概括此调试程序的工作流如下:
-
如果需要,使用
sagemaker-debugger
Python SDK 修改您的训练脚本。 -
使用 SageMaker 调试器配置 SageMaker 训练作业。
-
使用 Esti SageMaker mator API 进行配置(适用于 Python 开发工具包)。
-
使用 SageMaker
CreateTrainingJob
请求进行配置(适用于 Boto3 或 CLI)。 -
使用 SageMaker 调试器配置自定义训练容器。
-
-
开始训练工作并实时监控训练问题。
-
获取警报并对培训问题立即采取行动。
-
使用以下方法接收短信和电子邮件,并在发现培训问题时停止培训工作调试器内置规则操作。
-
-
接收培训报告、解决问题的建议以及对培训工作的见解。
-
探索对培训问题和瓶颈的深入分析。
-
有关分析训练作业的信息,请参阅使用 smDebug 客户端库分析数据。
-
有关调试模型输出张量的信息,请参见在 TensorBoard 中可视化调试器输出张量。
-
-
考虑调试器提供的建议修复问题,然后重复步骤 1—5,直到优化模型并达到目标精度。
调 SageMaker 试器开发人员指南将引导您完成以下主题。