Amazon SageMaker 探查器 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 探查器

Amazon SageMaker 探查器目前为预览版,并已在支持的 Amazon Web Services 区域中免费提供。Amazon SageMaker 探查器的正式发布版本(如果有)的所含功能和定价与预览版的所含功能和定价可能不同。

Amazon SageMaker 探查器是 Amazon SageMaker AI 的一项功能,它详细地说明了在 SageMaker AI 上训练深度学习模型期间预调配的 Amazon 计算资源。它侧重于分析 CPU 和 GPU 使用率、GPU 上的内核运行、CPU 上的内核启动、同步操作、CPU 和 GPU 之间的内存操作、内核启动和相应运行之间的延迟,以及 CPU 和 GPU 之间的数据传输。SageMaker 探查器还提供可视化配置文件的用户界面 (UI)、已分析事件的统计摘要以及用于跟踪和理解 GPU 和 CPU 之间事件的时间关系的训练作业时间表。

注意

SageMaker 探查器支持 PyTorch 和 TensorFlow,并且在 Amazon Deep Learning Containers for SageMaker AI 中可用。要了解更多信息,请参阅支持的框架映像、Amazon Web Services 区域 和实例类型

对于数据科学家

在大型计算集群上训练深度学习模型通常会遇到计算优化问题,例如瓶颈、内核启动延迟、内存限制和资源利用率低。

要确定此类计算性能问题,您需要更深入地分析计算资源,了解哪些内核会带来延迟,哪些操作会导致瓶颈。数据科学家可以从使用 SageMaker 探查器 UI 来可视化训练作业的详细配置文件中受益。UI 提供了一个带摘要图表的控制面板和一个时间线界面,以便跟踪计算资源上的每个事件。数据科学家还可以使用 SageMaker 探查器 Python 模块来添加自定义注释以跟踪训练作业的特定部分。

对于管理员

如果您是 Amazon 账户或 SageMaker AI 域的管理员,则可以通过 SageMaker AI 控制台中的探查器登录页面或 SageMaker AI 域管理探查器应用程序用户。每个域用户均能使用授予的权限访问其探查器应用程序。作为 SageMaker AI 域管理员和域用户,您可以使用相应级别的权限创建和删除探查器应用程序。