调试和提升模型性能 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

调试和提升模型性能

训练机器学习模型、深度学习神经网络、变换器模型的本质在于实现稳定的模型收敛性,因此, state-of-the-art模型具有数百万、数十亿或数万亿个模型参数。每次迭代期间用于更新大量模型参数的操作数很容易变成一个天文数字。要识别模型收敛问题,必须能够获得优化过程中计算的模型参数、激活次数和梯度。

Amazon SageMaker 提供了两种调试工具,以帮助识别此类融合问题并了解您的模型。

Amazon w SageMaker ith TensorBoard

为了提高与 SageMaker培训平台中的开源社区工具的兼容性, SageMaker 托管 TensorBoard 为域中的SageMaker 应用程序。您可以将训练作业带到 SageMaker 并继续使用 TensorBoard 摘要编写器来收集模型输出张量。由于 TensorBoard 已在SageMaker 域中实现,因此它还为您提供了更多选项来管理 Amazon 账户中该 SageMaker 域下的用户配置文件,并通过授予对特定操作和资源的访问权限来对用户配置文件进行精细控制。要了解更多信息,请参阅 TensorBoard 用于调试和分析 Amazon 中的训练作业 SageMaker

Amazon SageMaker 调试器

Amazon SageMaker Debugger 是一种功能 SageMaker ,它提供了用于注册回调挂钩的工具,以提取模型输出张量并将其保存在亚马逊简单存储服务中。它提供了用于检测模型收敛问题的内置规则,例如过度拟合、饱和激活函数、梯度消失等。您还可以使用 Amazon Ev CloudWatch ents 设置内置规则, Amazon Lambda 用于对检测到的问题采取自动操作,并将亚马逊简单通知服务设置为接收电子邮件或短信通知。要了解更多信息,请参阅使用 Amazon 调 SageMaker 试器调试和提高模型性能