亚马逊 SageMaker 调试器见解控制面板 - 亚马逊 SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 SageMaker 调试器见解控制面板

默认情况下,当您启动 SageMaker 训练任务时, SageMaker Debugger 开始监控 Amazon EC2 实例的资源利用率。您可以通过 Insights 仪表板跟踪系统利用率、统计概述和内置规则分析。本指南引导您浏览以下选项卡下的 SageMaker Debugger Insights 仪表板的内容:系统指标规则

注意

SageMaker Debugger Insights 仪表板在ml.m5.4xlarge实例上运行 Studio 应用程序来处理和呈现可视化效果。每个 “ SageMaker 调试器洞察” 选项卡运行一个 Studio 内核会话。多个 SageMaker Debugger Insights 选项卡的多个内核会话在单个实例上运行。当您关闭 SageMaker Debugger Insights 选项卡时,相应的内核会话也会关闭。Studio 应用程序保持活动状态并根据ml.m5.4xlarge实例使用量产生费用。有关定价的信息,请参阅 Amazon SageMaker 定价页面。

重要

使用完 SageMaker Debugger Insights 控制面板后,关闭该ml.m5.4xlarge实例以避免产生费用。有关如何关闭实例的说明,请参阅关闭亚马逊调 SageMaker 试器洞察实例

重要

在这些报告中,提供的情节和建议仅供参考,并非最终的。您有责任对信息进行自己的独立评估。

系统指标

系统指标选项卡中,您可以使用汇总表和时间序列图来了解资源利用率。

资源利用率摘要

此摘要表显示所有节点的计算资源利用率指标的统计信息(以 algo-n 表示)。资源利用率指标包括 CPU 总利用率、GPU 总利用率、CPU 内存总利用率、GPU 内存总利用率、I/O 总等待时间以及以字节为单位的网络总利用率。该表显示了最小值和最大值,以及 p99、p90 和 p50 百分位数。


                        资源利用率汇总表

资源利用率时间序列图

使用时间序列图查看资源利用率的更多详细信息,并确定每个实例在什么时间间隔显示任何不想要的利用率,例如 GPU 利用率低和可能导致昂贵实例浪费的 CPU 瓶颈。

时间序列图控制器用户界面

以下屏幕截图显示了用于调整时间序列图的 UI 控制器。


                         SageMaker 调试器见解仪表板中的界面控制器。
  • algo-1:使用此下拉菜单选择要查看的节点。

  • 放大:使用此按钮放大时间序列图并查看更短的时间间隔。

  • 缩小:使用此按钮可缩小时间序列图并查看更宽的时间间隔。

  • 向@@ 左平移:将时间序列图移至较早的时间间隔。

  • 向@@ 右平移:将时间序列图移至以后的时间间隔。

  • 修复时间范围:使用此复选框修复或恢复时间序列图以显示从第一个数据点到最后一个数据点的整个视图。

CPU 利用率和 I/O 等待时间

前两张图显示了一段时间内的 CPU 利用率和 I/O 等待时间。默认情况下,图表显示 CPU 内核上花费的 CPU 利用率和 I/O 等待时间的平均值。您可以通过选择标签来选择一个或多个 CPU 内核,将它们绘制在单个图表上,并比较各核心的利用率。您可以通过拖动和放大和缩小来仔细查看特定的时间间隔。


                        debugger-studio-insight-mockup

GPU 利用率和 GPU 内存利用率

下图显示了一段时间内的 GPU 利用率和 GPU 内存利用率。默认情况下,图表显示一段时间内的平均利用率。您可以选择 GPU 核心标签来查看每个内核的利用率。将平均利用率与 GPU 内核总数相比可以显示整个硬件系统资源的平均利用率。通过查看平均利用率,您可以检查 Amazon EC2 实例的整体系统资源使用情况。下图显示了在具有 8 个 GPU 内核的ml.p3.16xlarge实例上的训练作业示例。您可以监控训练作业的分布是否均匀,充分利用所有 GPU。


                        debugger-studio-insight-mockup

一段时间内的总体系统利用率

以下热图显示了一个ml.p3.16xlarge实例在一段时间内的整个系统利用率的示例,该示例投影到二维图上。每个 CPU 和 GPU 核心都列在垂直轴上,并使用配色方案记录一段时间内的利用率,其中鲜艳的颜色表示低利用率,较暗的颜色表示高利用率。查看图右侧带标签的颜色条,找出哪个颜色级别对应于哪个利用率。


                        debugger-studio-insight-mockup

规则

使用 “规则” 选项卡查找训练作业的性能分析规则分析摘要。如果在训练作业中激活分析规则,则文本将以纯白色文本突出显示。不活跃的规则以灰色文本显示为灰色。要激活这些规则,请按照中的说明进行操作配置由 Amazon SageMaker Debugger 管理的内置分析规则


                    “ SageMaker 调试器见解” 仪表板中的 “规则” 选项卡