支持的框架和算法 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持的框架和算法

下表显示了SageMaker调试器支持的机器学习框架和算法。

SageMaker-supported frameworks and algorithms Monitoring system bottlenecks Profiling deep learning framework operations Debugging output tensors

TensorFlow

全部Amazon深度学习容器

Amazon TensorFlow深度学习容器2.3.1 或更高版本

Amazon TensorFlow深度学习容器1.15.4 或更高版本

PyTorch

Amazon PyTorch深度学习容器1.6.0 或更高版本

Amazon PyTorch深度学习容器1.5.0 或更高版本

MXNet

-

AmazonMxNet 深度学习容器1.6.0 或更高版本

XGBoost

1.0-1、1.2-1、1.3-1

-

1.0-1、1.2-1、1.3-1

SageMaker通用估算

SageMaker使用图像 URI 的内置算法

自定义培训容器(使用Amazon深度学习容器映像、公共 Docker 映像或您自己的 Docker 映像)

-

自定义培训容器(适用于TensorFlow、PyTorch、MxNet 和 xgBoost(带手动挂钩注册)

  • 监控系统瓶颈— 监控 CPU、GPU、内存、网络和数据 I/O 指标等资源的系统利用率。这是一个与框架和模型无关的功能,适用于SageMaker.

  • 分析深度学习框架操作— 概要介绍的深度学习操作TensorFlow和PyTorch框架,例如步骤持续时间、数据加载器、向前和向后操作、Python 分析指标和框架特定的指标。

  • 调试输出张量— 跟踪和调试模型参数,例如训练作业的权重、渐变、偏差和标量值。可用的深度学习框架是 Apache MxNet,TensorFlow、PyTorch和 xgBoost。

    重要

    对于TensorFlow与 Keras 的框架SageMaker调试器弃用零代码更改支持调试使用tf.keras的模块TensorFlow2.6 和更高版本。这是由于在TensorFlow版本 2.6.0. SageMaker调试器继续支持本机的零代码更改体验TensorFlow(不包括tf.keras模块)。

如果表中没有列出要训练和调试的框架或算法,请转到Amazon开发论坛然后留下反馈SageMaker调试程序。

将调试器用于自定义训练容器

把你的训练容器带到SageMaker并使用调试器深入了解你的训练工作。通过使用监控和调试功能在 Amazon EC2 实例上优化模型,最大限度地提高工作效率。

有关如何使用SMDebug客户端库,将其推送到 Amazon Elastic Container Registry (Amazon ECR),然后监控和调试,请参阅将调试器用于自定义训练容器.

开源调试程序GitHub存储库

调试器 API 是通过SageMakerPython SDK,旨在构建调试器挂钩和规则配置SageMaker CreateTraining作业 DescribeTraining作业API 操作。这些区域有:SMDebug客户端库提供注册工具钩子并通过其访问培训数据审判功能,所有这些都通过其灵活而强大的 API 操作。它支持机器学习框架TensorFlow、PyTorchPython 3.6 和更高版本上的 XGBoost。

有关调试器的直接资源和SMDebug请参阅以下链接:

如果你使用适用 SDK for Java 来执行SageMaker训练作业并想要配置调试器 API,请参阅以下参考资料: