Amazon SageMaker 调试程序 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 调试程序

使用 Amazon SageMaker 调试器实时调试、监控和分析培训作业,检测非融合条件,通过消除瓶颈优化资源利用率,缩短培训时间,并降低机器学习模型的成本。

Amazon SageMaker 调试器功能

机器学习 (ML) 训练作业可能会出现系统瓶颈、过度拟合、饱和激活函数和渐变消失等问题,这会影响模型性能。

SageMaker 调试器配置和调试培训工作,以帮助解决此类问题并提高您的 ML 模型的计算资源利用率和性能。调试器提供了一些工具,用于在发现训练异常时发送警报,针对问题采取措施,并通过可视化收集的指标和张量来确定问题的根本原因。

SageMaker 调试程序支持 Apache MXNet、TensorFlow、PyTorch 和 XGBoost。有关可用框架和版本的更多信息,请参阅支持的框架和算法.


                Amazon SageMaker 调试器的工作原理概述。

概括调试程序工作流如下:

  1. 使用调试程序配置 SageMaker 训练作业。

  2. 开始培训工作并实时监控培训问题。

  3. 获取警报并针对培训问题及时采取措施。

  4. 接收培训报告、修复问题的建议以及培训工作的见解。

  5. 探索对培训问题和瓶颈的深入分析。

  6. 考虑调试器提供的建议,修复这些问题,然后重复步骤 1-5,直到优化模型并达到目标精度。

SageMaker 调试器开发人员指南将指导您完成以下主题。