

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 调试和提升模型性能
<a name="train-debug-and-improve-model-performance"></a>

训练机器学习模型、深度学习神经网络、变换器模型的本质在于实现稳定的模型收敛性，因此， state-of-the-art模型具有数百万、数十亿或数万亿个模型参数。每次迭代期间用于更新大量模型参数的操作数很容易变成一个天文数字。要识别模型收敛问题，必须能够获得优化过程中计算的模型参数、激活次数和梯度。

Amazon SageMaker AI 提供了两种调试工具，可帮助识别此类融合问题并了解您的模型。

**带有 Amazon SageMaker AI TensorBoard**

为了提高与 SageMaker AI 培训平台中的开源社区工具的兼容性， SageMaker AI 以 A [SageMaker I 领域的](https://docs.amazonaws.cn/sagemaker/latest/dg/sm-domain.html)应用程序 TensorBoard 形式托管。您可以将训练作业带到 SageMaker AI 中，并继续使用 TensorBoard 摘要编写器来收集模型输出张量。由于已 TensorBoard 在 [SageMaker AI 域](https://docs.amazonaws.cn/sagemaker/latest/dg/sm-domain.html)中实现，因此它还为您提供了更多选项来管理 Amazon 账户中 SageMaker AI 域下的用户个人资料，并通过授予对特定操作和资源的访问权限来对用户配置文件进行精细控制。要了解更多信息，请参阅[TensorBoard 在亚马逊 A SageMaker I 中](tensorboard-on-sagemaker.md)。

**Amazon SageMaker 调试器**

Amazon SageMaker Debugger 是 SageMaker AI 的一项功能，它提供了将挂钩注册到回调的工具，以提取模型输出张量并将其保存在亚马逊简单存储服务中。它提供了用于检测模型收敛问题的[内置规则](https://docs.amazonaws.cn/sagemaker/latest/dg/debugger-built-in-rules.html)，例如过度拟合、饱和激活函数、梯度消失等。您还可以使用 Amazon Ev CloudWatch ents 设置内置规则， Amazon Lambda 用于对检测到的问题采取自动操作，并将亚马逊简单通知服务设置为接收电子邮件或短信通知。要了解更多信息，请参阅[Amazon SageMaker 调试器](train-debugger.md)。

**Topics**
+ [TensorBoard 在亚马逊 A SageMaker I 中](tensorboard-on-sagemaker.md)
+ [Amazon SageMaker 调试器](train-debugger.md)
+ [通过访问训练容器 Amazon Systems Manager 进行远程调试](train-remote-debugging.md)
+ [Amazon SageMaker AI 调试功能发行说明](debugger-release-notes.md)