支持的框架和算法 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

支持的框架和算法

下表显示了 Debugger 支持的 SageMaker 机器学习框架和算法。

SageMaker-supported frameworks and algorithms Debugging output tensors

TensorFlow

Amazon TensorFlow 深度学习容器 1.15.4 或更高版本

PyTorch

Amazon PyTorch 深度学习容器 1.5.0 或更高版本

MXNet

Amazon MXNet 深度学习容器 1.6.0 或更高版本

XGBoost

1.0-1、1.2-1、1.3-1

SageMaker 通用估算器

自定义训练容器(可用于 TensorFlow、PyTorch、MXNet 和 XGBoost,采用手动钩子注册)

  • 调试输出张量 – 跟踪和调试模型参数,例如训练作业的权重、梯度、偏差和标量值。可用的深度学习框架包括 Apache MXNet、TensorFlow、PyTorch 和 XGBoost。

    重要

    在采用 Keras 的 TensorFlow 框架中,对于使用 TensorFlow 2.6 及更高版本的 tf.keras 模块构建的调试模型,SageMaker Debugger 现已弃用零代码更改支持。这是由于在 TensorFlow 2.6.0 发行说明中公告的重大更改所造成。有关如何更新训练脚本的说明,请参阅调整 TensorFlow 训练脚本

    重要

    从 PyTorch v1.12.0 及更高版本开始,SageMaker Debugger 弃用了对调试模型的零代码更改支持。

    这是由于进行了重大更改,导致 SageMaker Debugger 会干扰 torch.jit 的功能。有关如何更新训练脚本的说明,请参阅调整 PyTorch 训练脚本

如果表中没有列出您要训练和调试的框架或算法,请转到 Amazon 论坛并在 SageMaker Debugger 部分留下反馈。

Amazon Web Services 区域

Amazon SageMaker Debugger 在提供 Amazon SageMaker 的所有区域可用,但以下区域除外。

  • 亚太地区(雅加达):ap-southeast-3

要了解您的 Amazon Web Services 区域中是否提供 Amazon SageMaker,请参阅 Amazon 区域服务。

将 Debugger 与自定义训练容器配合使用

自带训练容器到 SageMaker 中,并使用 Debugger 深入了解您的训练作业。使用监控和调试功能,在 Amazon EC2 实例上优化模型,最大限度地提高工作效率。

有关如何使用 sagemaker-debugger 客户端库构建训练容器、将其推送到 Amazon Elastic Container Registry (Amazon ECR),然后进行监控和调试的更多信息,请参阅将 Debugger 与自定义训练容器配合使用

Debugger 开源 GitHub 存储库

Debugger API 通过 SageMaker Python SDK 提供,设计用于为 SageMaker CreateTrainingJobDescribeTrainingJob API 操作构造 Debugger 钩子和规则配置。sagemaker-debugger 客户端库提供工具用于注册钩子,并通过其试验功能访问训练数据,所有这些都通过灵活而强大的 API 操作来实现。它支持 Python 3.6 和更高版本上的机器学习框架 TensorFlow、PyTorch、MXNet 和 XGBoost。

有关直接介绍 Debugger 和 sagemaker-debugger API 操作的资源,请参阅以下链接:

如果您使用 SDK for Java 来执行 SageMaker 训练作业,并且想要配置 Debugger API,请参阅以下参考资料: