Amazon SageMaker 调试器 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 调试器

使用 Amazon Debugger 实时调试机器学习训练作业中的模型输出张量,并检测非融合问题。 SageMaker

Amazon SageMaker Debugger 功能

机器学习 (ML) 训练作业可能存在系统瓶颈、过度拟合、饱和激活函数和梯度消失等问题,这些问题会影响模型性能。

SageMaker Debugger 提供了用于调试训练作业和解决此类问题的工具,从而提高模型的性能。Debugger 也提供了一些工具,用于在发现训练异常情况时发送警报,针对问题采取措施,并通过将收集的指标和张量可视化来确定造成问题的根本原因。

SageMaker 调试器支持 Apache MXNet、 PyTorch TensorFlow、和框架。XGBoost有关 D SageMaker ebugger 支持的可用框架和版本的更多信息,请参阅支持的框架和算法

Amazon SageMaker 调试器的工作原理概述。

Debugger 工作流概述如下:

  1. SDK如果需要,可以使用 sagemaker-debugger Python 修改您的训练脚本。

  2. 使用 SageMaker 调试器配置 SageMaker 训练作业。

  3. 启动训练作业并实时监控训练问题。

  4. 获取警报并针对训练问题迅速采取措施。

  5. 探索对训练问题的深入分析。

  6. 修复问题,考虑 Debugger 提供的建议,然后重复步骤 1-5,直到模型得到优化并达到目标准确性。

《 SageMaker 调试器开发者指南》将引导您完成以下主题。