支持的框架和算法 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持的框架和算法

下表显示了调试器支持的 SageMaker 机器学习框架和算法。

SageMaker-supported frameworks and algorithms Monitoring system bottlenecks Profiling deep learning framework operations Debugging output tensors

TensorFlow

全部Amazon深度学习容器

AmazonTensorFlow 深度学习容器2.3.1 或更高版本

AmazonTensorFlow 深度学习容器1.15.4 或更高版本

PyTorch

AmazonPyTorch 深度学习容器1.6.0 或更高版本

AmazonPyTorch 深度学习容器1.5.0 或更高版本

MXNet

-

AmazonMxNet 深度学习容器1.6.0 或更高版本

XGBoost

1.0-1、1.2-1、1.3-1

-

1.0-1、1.2-1、1.3-1

SageMaker 通用估计器

SageMaker 使用图像 URI 的内置算法

自定义训练容器(使用Amazon深度学习容器映像、公共 Docker 映像或您自己的 Docker 映像)

-

自定义训练容器(可用于 TensorFlow、PyTorch、MXNet 和 XGBoost,并使用手动挂钩定位)

  • 监控系统瓶颈— 监控 CPU、GPU、内存、网络和数据 I/O 指标等资源的系统利用率。这是一个不可知的框架和模型功能,可用于 SageMaker 中的任何培训工作。

  • 分析深度学习框架操作— 分析 TensorFlow 和 PyTorch 框架的深度学习操作,例如步长持续时间、数据加载器、前向和向后操作、Python 分析指标以及特定于框架的指标。

  • 调试输出张量— 跟踪和调试模型参数,例如训练作业的权重、渐变、偏差和标量值。可用的深度学习框架包括 Apache MXNet、TensorFlow、PyTorch 和 XGBoost。

    重要

    对于具有 Keras 的 TensorFlow 框架,SageMaker 调试器将为使用tf.keras模块和更 TensorFlow 版本。这是由于在TensorFlow 2.6.0 版本说明. SageMaker 调试器继续支持本机 TensorFlow 的零代码更改体验(不包括tf.keras模块)。

如果表中未列出要训练和调试的框架或算法,请转到Amazon开发论坛并在 SageMaker 调试器上留下反馈。

将调试器与自定义训练容器一起使用

将您的培训容器带到 SageMaker,并使用调试器深入了解您的培训工作。通过使用监控和调试功能优化 Amazon EC2 实例上的模型,最大限度地提高您的工作效率。

有关如何使用SMDebug客户端库,将其推送到 Amazon Elastic Container Registry (Amazon ECR),并监控和调试,请参阅。将调试器与自定义训练容器一起使用.

调试器开源 GitHub 存储库

调试器 API 是通过 SageMaker Python SDK 提供的,用于构建 SageMaker 的调试器挂钩和规则配置CreateTrainingJobDescribeTrainingJobAPI 操作。这些区域有:SMDebug客户端库提供注册的工具hooks,然后通过试用功能,所有这些都通过其灵活而强大的 API 操作来实现。它在 Python 3.6 和更高版本上支持机器学习框架 TensorFlow、PyTorch、MXNet 和 XGBoost。

有关调试器和SMDebugAPI 操作,请参阅以下链接:

如果您使用适用 SDK for Java 的软件开发工具包执行 SageMaker 培训作业,并希望配置调试器 API,请参阅以下参考资料: