Amazon Web Services 区域将 Debugger 与自定义容器配合使用调试器开源存储库 GitHub

支持的框架和算法

下表显示了 Debugger 支持的 SageMaker AI 机器学习框架和算法。

SageMaker AI-supported frameworks and algorithms	Debugging output tensors
TensorFlow	Amazon TensorFlow 深度学习容器 1.15.4 或更高版本
PyTorch	Amazon PyTorch 深度学习容器 1.5.0 或更高版本
MXNet	Amazon MXNet 深度学习容器 1.6.0 或更高版本
XGBoost	1.0-1、1.2-1、1.3-1
SageMaker AI 通用估算器	自定义训练容器（可用于 TensorFlow PyTorch、 MXNet、 XGBoost 和手动挂钩注册）

调试输出张量 – 跟踪和调试模型参数，例如训练作业的权重、梯度、偏差和标量值。可用的深度学习框架有 Apache MXNet TensorFlow、 PyTorch、和。 XGBoost

重要
对于带有 Keras 的 TensorFlow 框架， SageMaker Debugger 弃用了对使用 2.6 及更高版本tf.keras模块构建的调试模型的 TensorFlow 零代码更改支持。这是由于 TensorFlow 2.6.0 发行说明中宣布的重大变更所致。有关如何更新训练脚本的说明，请参阅调整您的 TensorFlow 训练脚本。

重要
从 PyTorch v1.12.0 及更高版本开始， SageMaker Debugger 弃用了对调试模型的零代码更改支持。
这是由于重大更改会导致 SageMaker 调试器干扰torch.jit功能。有关如何更新训练脚本的说明，请参阅调整您的 PyTorch 训练脚本。

如果您要训练和调试的框架或算法未在表中列出，请前往Amazon 讨论论坛并在 D SageMaker ebugger 上留下反馈。

Amazon Web Services 区域

Amazon SageMaker Debugger 在使用 Amazon A SageMaker I 的所有地区都可用，但以下区域除外。

亚太地区（雅加达）：ap-southeast-3

要了解您的 Amazon SageMaker AI 是否已在 Amazon Web Services 区域使用，请参阅Amazon 区域服务。

将 Debugger 与自定义训练容器配合使用

使用调试器将您的训练容器引入 SageMaker AI，并深入了解您的训练作业。使用监控和调试功能在 Amazon EC2 实例上优化模型，从而最大限度地提高工作效率。

有关如何使用 sagemaker-debugger 客户端库构建训练容器、将其推送到 Amazon Elastic Container Registry (Amazon ECR)，然后进行监控和调试的更多信息，请参阅使用 Debugger 和自定义训练容器。

调试器开源存储库 GitHub

调试 APIs 器通过 SageMaker Python SDK 提供，旨在为 SageMaker AI 和 DescribeTrainingJobAPI 操作构造调试器挂钩 CreateTrainingJob和规则配置。sagemaker-debugger 客户端库提供工具用于注册钩子，并通过其试验功能访问训练数据，所有这些都通过灵活而强大的 API 操作来实现。它在 Python 3.6 及更高版本 XGBoost 上支持机器学习框架 TensorFlow PyTorch MXNet、、和。

有关直接介绍 Debugger 和 sagemaker-debugger API 操作的资源，请参阅以下链接：

如果您使用适用于 Java 的 SDK 来执行 SageMaker 训练作业并想要配置调试器 APIs，请参阅以下参考资料：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

SageMaker 调试器

Debugger 结构

支持的框架和算法

重要

重要

Amazon Web Services 区域

将 Debugger 与自定义训练容器配合使用

调试器开源存储库 GitHub