探索 Amazon SageMaker 调试器见解控制面板 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

探索 Amazon SageMaker 调试器见解控制面板

当您启动 SageMaker 训练任务时,默认情况下, SageMaker 调试器会开始监控 Amazon EC2 实例的资源利用率。您可以通过 Insights 控制面板跟踪系统利用率、统计数据概览和内置规则分析。本指南将引导您完成以下选项卡下的 SageMaker Debugger Insights 控制面板的内容:系统指标规则

注意

SageMaker Debugger Insights 仪表板在ml.m5.4xlarge实例上运行 Studio Classic 应用程序来处理和呈现可视化效果。每个 “ SageMaker 调试器见解” 选项卡都运行一个 Studio Classic 在单个实例上运行多个 SageMaker Debugger Insights 选项卡的多个内核会话。关闭 “ SageMaker 调试器见解” 选项卡时,相应的内核会话也会关闭。Studio Classic 应用程序保持活动状态,并会根据ml.m5.4xlarge实例使用量产生费用。有关定价的信息,请参阅 Amazon SageMaker 定价页面。

重要

使用 SageMaker Debugger Insights 仪表板后,请关闭ml.m5.4xlarge实例以免产生费用。有关如何关闭实例的说明,请参阅关闭 Amazon SageMaker 调试器洞察实例

重要

报告中提供的图表和建议仅供参考,并不确保准确无误。您应负责对其中的信息进行单独评测。

系统指标

系统指标选项卡中,您可以使用摘要表和时间序列图来了解资源利用率。

资源利用率摘要

此摘要表显示所有节点的计算资源利用率指标的统计信息(表示为 algo-n)。资源利用率指标包括总CPU利用率、总利用GPU率、总内存利用率、总CPU内存利用率、总 GPU I/O 等待时间和网络总量(以字节为单位)。该表显示了最小值和最大值,以及 p99、p90 和 p50 百分位数。

资源利用率摘要表

资源利用率时间序列图

使用时间序列图可以查看资源利用率的更多详细信息,并确定每个实例在什么时间间隔显示任何不想要的利用率,例如低GPU利用率和可能导致浪费昂贵实例的CPU瓶颈。

时间序列图控制器 UI

以下屏幕截图显示了用于调整时间序列图的 UI 控制器。

“ SageMaker 调试器见解” 仪表板中的 UI 控制器。
  • algo-1:使用此下拉菜单选择要查看的节点。

  • 放大:使用此按钮可以放大时间序列图,以查看较短的时间窗口。

  • 放大:使用此按钮可以缩小时间序列图,以查看较长的时间窗口。

  • 向左平移:将时间序列图表移动到较早的时间窗口。

  • 向右平移:将时间序列图表移动到较晚的时间窗口。

  • 固定时间范围:使用此复选框来固定或者返回到时间序列图,以显示从第一个数据点到最后一个数据点的完整视图。

CPU利用率和 I/O 等待时间

前两个图表显示一段时间内的CPU利用率和 I/O 等待时间。默认情况下,这些图表显示在CPU内核上花费的平均CPU利用率和 I/O 等待时间。您可以通过选择标签来选择一个或多个CPU内核,将它们绘制在单个图表上,并比较各个内核的利用率。您可以拖动和缩放图形来仔细查看特定的时间窗口。

debugger-studio-insight-mockup

GPU利用率和GPU内存利用率

下图显示了一段时间内的GPU利用率和GPU内存利用率。默认情况下,这些图表显示一段时间内的平均利用率。您可以选择GPU核心标签来查看每个核心的利用率。将利用率的平均值与GPU内核总数相比得出整个硬件系统资源的平均利用率。通过查看平均利用率,您可以检查 Amazon EC2 实例的总体系统资源使用情况。下图显示了在具有 8 GPU 个内核的ml.p3.16xlarge实例上进行的训练作业示例。您可以监控训练作业是否分布良好,充分利用所有内容GPUs。

debugger-studio-insight-mockup

一段时间的整体系统利用率

下面的热图显示了在二维图上投影的一段时间内的 ml.p3.16xlarge 实例整体系统利用率。每个CPU和GPU核心都列在垂直轴上,并使用配色方案记录一段时间内的利用率,其中鲜艳的颜色代表低利用率,而较深的颜色代表高利用率。请参阅图右侧带标注的颜色条,了解各个颜色深浅程度所对应的利用率。

debugger-studio-insight-mockup

规则

使用规则选项卡查找训练作业分析规则的分析摘要。如果在训练作业中激活了分析规则,则文本将以纯白色文本突出显示。未激活的规则以灰色文本灰显。要激活这些规则,请按照使用由 Amazon SageMaker Debugger 管理的内置分析器规则中的说明进行操作。

“ SageMaker 调试器见解” 仪表板中的 “规则” 选项卡