Amazon SageMaker 调试程序 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 调试程序

使用 实时调试、监控和分析训练作业,检测非聚合条件,通过消除瓶颈来优化资源利用率,提高训练时间和降低机器学习模型的成本Amazon SageMaker 调试程序。

新 调试程序 功能

SageMaker 调试程序 分析并调试您的训练作业,以提高机器学习模型在计算资源利用率和模型预测方面的性能。现在,您可以使用以下新功能更快地实现目标准确性调试程序:


                Amazon SageMaker 调试程序 工作原理概述。

调试程序 功能

调试程序 提供以下功能:

要查看 SageMaker 支持的调试程序机器学习框架和算法的列表,请参阅支持的框架和算法

要了解有关 的架构调试程序及其工作原理的更多信息,请参阅调试程序 架构和最佳实践

有关调试程序教程和笔记本示例,请参阅开始使用 调试程序 教程

支持的框架和算法

下表显示了 支持的SageMaker机器学习框架和算法调试程序。

SageMaker frameworks and algorithms Performance optimization Model optimization
Monitoring system bottlenecks Profiling framework operations Debugging model parameters

TensorFlow

所有AWS深度学习容器

AWS TensorFlow 深度学习容器 2.3.1 或更高版本

AWS TensorFlow 深度学习容器 1.15.4 或更高版本

PyTorch

AWS PyTorch深度学习容器 1.6.0 或更高版本

AWS PyTorch深度学习容器 1.5.0 或更高版本

MXNet

-

AWS MXNet 深度学习容器 1.6.0 或更高版本

XGBoost

1.0-12-1

-

1.0-12-1

SageMaker 通用评估程序

SageMaker 调试程序 使用图像 URIs内置算法

自定义训练容器(使用AWS深度学习容器映像、公有 Docker 映像或您自己的 Docker 映像)

-

自定义训练容器(具有手动挂钩注册的 TensorFlow、PyTorch、MXNet 和 XGBoost 训练脚本)

如果要训练和调试的框架或算法未在表中列出,请转到 AWS 开发论坛并在 SageMaker 上留下反馈调试程序。

将 调试程序 与自定义训练容器结合使用

使用 将您的训练容器引入 SageMaker 并深入了解您的训练作业调试程序。通过使用上述SageMaker调试程序功能优化 EC2 实例上的模型,最大限度地提高您的工作效率。

有关如何将训练容器推送到 Amazon Elastic Container Registry (ECR) 和调试的更多信息,请参阅将 调试程序 与自定义训练容器结合使用

调试程序 开源 GitHub 存储库

调试程序 APIs 通过 SageMaker Python 开发工具包提供,旨在为 调试程序 SageMaker CreateTrainingJob DescribeTrainingJob API 操作构建挂钩和规则配置。SMDebug 客户端库提供了通过其试验功能注册挂钩和访问训练数据的工具,所有这些工具都通过其灵活而强大的 API 操作进行。它在 Python 3.6 及更高版本上支持机器学习框架 TensorFlow、PyTorch、MXNet 和 XGBoost。

如果要查找 调试程序 和 SMDebug API 操作的直接资源,请参阅以下链接:

如果您使用 Java 开发工具包执行SageMaker训练作业并希望配置 调试程序 APIs请参阅以下参考:

本SageMaker调试程序开发人员指南将引导您完成以下主题。