本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
支持的框架和算法
下表显示了 Debugger 支持的 SageMaker 机器学习框架和算法。
SageMaker-supported frameworks and algorithms | Debugging output tensors |
---|---|
Amazon TensorFlow 深度学习容器 |
|
Amazon PyTorch 深度学习容器 |
|
Amazon MxNet 深度学习容器 |
|
1.0-1、1.2-1、1.3-1 |
|
自定义训练容器(可用于 TensorFlow、 PyTorch、mxNet 和 xgBoost,带有手动挂钩注册功能) |
-
调试输出张量 – 跟踪和调试模型参数,例如训练作业的权重、梯度、偏差和标量值。可用的深度学习框架有 Apache MXnet TensorFlow、 PyTorch、和 xgBoost。
重要
对于带有 Keras 的 TensorFlow 框架, SageMaker Debugger 弃用了对使用 2.6 及更高版本
tf.keras
模块构建的调试模型的 TensorFlow 零代码更改支持。这是由于 TensorFlow 2.6.0 发行说明中宣布的重大变更所致。有关如何更新训练脚本的说明,请参阅调整您的 TensorFlow 训练脚本。 重要
从 PyTorch v1.12.0 及更高版本开始, SageMaker Debugger 弃用了对调试模型的零代码更改支持。
这是由于重大更改导致 SageMaker 调试器干扰
torch.jit
功能。有关如何更新训练脚本的说明,请参阅调整您的 PyTorch 训练脚本。
如果您要训练和调试的框架或算法未在表中列出,请前往Amazon 讨论论坛
Amazon Web Services 区域
除以下地区外,Amazon SageMaker Debugger SageMaker 在亚马逊服务的所有地区均可用。
亚太地区(雅加达):
ap-southeast-3
要查看 Amazon SageMaker 是否在您的服务中 Amazon Web Services 区域运行,请参阅Amazon 区域服务
将 Debugger 与自定义训练容器配合使用
使用 Debugger 将训练容器带到训练作业中,深入了解训练作业。 SageMaker 使用监控和调试功能,在 Amazon EC2 实例上优化模型,最大限度地提高工作效率。
有关如何使用 sagemaker-debugger
客户端库构建训练容器、将其推送到 Amazon Elastic Container Registry (Amazon ECR),然后进行监控和调试的更多信息,请参阅将 Debugger 与自定义训练容器配合使用。
调试器开源存储库 GitHub
调试器 API 通过 SageMaker Python SDK 提供,旨在为和 DescribeTrainingJobAPI 操作构造调试器挂钩 SageMaker CreateTrainingJob和规则配置。sagemaker-debugger
客户端库提供工具用于注册钩子,并通过其试验功能访问训练数据,所有这些都通过灵活而强大的 API 操作来实现。它支持 Python 3.6 及更高版本上的机器学习框架 TensorFlow PyTorch、MxNet 和 XGBoost。
有关直接介绍 Debugger 和 sagemaker-debugger
API 操作的资源,请参阅以下链接:
如果您使用适用于 Java 的 SDK 来执行 SageMaker 训练作业并想要配置调试器 API,请参阅以下参考资料: