本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊SageMakerDebugger (调试程序)
使用 Amazon 实时调试、监控和分析培训作业、检测非融合条件、通过消除瓶颈优化资源利用率、缩短培训时间并降低机器学习模型的成本SageMaker调试程序。
亚马逊SageMaker调试程序功能
机器学习 (ML) 培训作业可能存在诸如系统瓶颈、过度拟合、饱和激活函数和渐变消失等问题,这些问题可能会影响模型性能。
SageMaker调试器配置和调试训练作业,以帮助解决此类问题并提高机器学习模型的计算资源利用率和性能。调试器提供了一些工具,用于在发现训练异常情况时发送警报,对问题采取措施,并通过可视化收集的指标和张量来确定问题的根本原因。
SageMaker调试器支持 Apache MxNet,TensorFlow、PyTorch和 xgBoost。有关可用框架和版本的更多信息,请参阅支持的框架和算法.

高级调试程序工作流程序如下:
-
配置SageMaker使用调试器进行培训。
-
使用配置SageMaker
Estimator
API(适用于 Python SDK). -
使用配置SageMaker
CreateTrainingJob
请求(适用于 Boto3 或 CLI). -
配置自定义培训容器使用 Debugger。
-
-
开始培训工作并实时监控培训问题。
-
获取警报并对培训问题迅速采取行动。
-
在发现培训问题时使用接收短信和电子邮件并停止培训工作调试器内置的规则操作.
-
使用设置自己的操作亚马逊CloudWatch事件和Amazon Lambda.
-
-
接收培训报告、解决问题的建议以及对培训工作的见解。
-
探索对培训问题和瓶颈的深入分析。
-
有关分析训练作业,请参阅使用 smDebug 客户端库分析数据.
-
有关调试模型参数,请参阅在 TensorBoard 中可视化调试器输出张量.
-
-
考虑调试器提供的建议修复问题,然后重复步骤 1-5,直到优化模型并达到目标准度。
这些区域有:SageMaker调试器开发人员指南将引导您完成以下主题。
主题
- 支持的框架和算法
- 亚马逊SageMaker调试程序架构
- 开始使用调试器教程
- 使用亚马逊配置调试器SageMakerPython 开发工具包
- 使用 Amazon SageMaker API 配置调试器
- 调试程序内置规则列表
- 为训练 Job 分析创建调试器自定义规则
- 将调试器用于自定义训练容器
- 对 Amazon SageMaker 调试器规则的操作
- Amazon SageMaker Studio 中的 Amazon SageMaker 调试器
- SageMaker 调试器交互式报告
- 使用 smDebug 客户端库分析数据
- 在 TensorBoard 中可视化 Amazon SageMaker 调试器输出张量
- Amazon SageMaker 调试器的最佳实践
- Amazon SageMaker 调试器高级主题和参考文档