本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
探索 Amazon SageMaker 调试器见解控制面板
当您启动 SageMaker 训练任务时,默认情况下, SageMaker 调试器会开始监控 Amazon EC2 实例的资源利用率。您可以通过 Insights 控制面板跟踪系统利用率、统计数据概览和内置规则分析。本指南将引导您完成以下选项卡下的 SageMaker Debugger Insights 控制面板的内容:系统指标和规则。
注意
SageMaker Debugger Insights 仪表板在ml.m5.4xlarge
实例上运行 Studio Classic 应用程序来处理和呈现可视化效果。每个 “ SageMaker 调试器见解” 选项卡都运行一个 Studio Classic 在单个实例上运行多个 SageMaker Debugger Insights 选项卡的多个内核会话。关闭 “ SageMaker 调试器见解” 选项卡时,相应的内核会话也会关闭。Studio Classic 应用程序保持活动状态,并会根据ml.m5.4xlarge
实例使用量产生费用。有关定价的信息,请参阅 Amazon SageMaker 定价
重要
使用 SageMaker Debugger Insights 仪表板后,请关闭ml.m5.4xlarge
实例以免产生费用。有关如何关闭实例的说明,请参阅关闭 Amazon SageMaker 调试器洞察实例。
重要
报告中提供的图表和建议仅供参考,并不确保准确无误。您应负责对其中的信息进行单独评测。
系统指标
在系统指标选项卡中,您可以使用摘要表和时间序列图来了解资源利用率。
资源利用率摘要
此摘要表显示所有节点的计算资源利用率指标的统计信息(表示为 algo-n)。资源利用率指标包括总CPU利用率、总利用GPU率、总内存利用率、总CPU内存利用率、总 GPU I/O 等待时间和网络总量(以字节为单位)。该表显示了最小值和最大值,以及 p99、p90 和 p50 百分位数。
资源利用率时间序列图
使用时间序列图可以查看资源利用率的更多详细信息,并确定每个实例在什么时间间隔显示任何不想要的利用率,例如低GPU利用率和可能导致浪费昂贵实例的CPU瓶颈。
时间序列图控制器 UI
以下屏幕截图显示了用于调整时间序列图的 UI 控制器。
-
algo-1:使用此下拉菜单选择要查看的节点。
-
放大:使用此按钮可以放大时间序列图,以查看较短的时间窗口。
-
放大:使用此按钮可以缩小时间序列图,以查看较长的时间窗口。
-
向左平移:将时间序列图表移动到较早的时间窗口。
-
向右平移:将时间序列图表移动到较晚的时间窗口。
-
固定时间范围:使用此复选框来固定或者返回到时间序列图,以显示从第一个数据点到最后一个数据点的完整视图。
CPU利用率和 I/O 等待时间
前两个图表显示一段时间内的CPU利用率和 I/O 等待时间。默认情况下,这些图表显示在CPU内核上花费的平均CPU利用率和 I/O 等待时间。您可以通过选择标签来选择一个或多个CPU内核,将它们绘制在单个图表上,并比较各个内核的利用率。您可以拖动和缩放图形来仔细查看特定的时间窗口。
GPU利用率和GPU内存利用率
下图显示了一段时间内的GPU利用率和GPU内存利用率。默认情况下,这些图表显示一段时间内的平均利用率。您可以选择GPU核心标签来查看每个核心的利用率。将利用率的平均值与GPU内核总数相比得出整个硬件系统资源的平均利用率。通过查看平均利用率,您可以检查 Amazon EC2 实例的总体系统资源使用情况。下图显示了在具有 8 GPU 个内核的ml.p3.16xlarge
实例上进行的训练作业示例。您可以监控训练作业是否分布良好,充分利用所有内容GPUs。
一段时间的整体系统利用率
下面的热图显示了在二维图上投影的一段时间内的 ml.p3.16xlarge
实例整体系统利用率。每个CPU和GPU核心都列在垂直轴上,并使用配色方案记录一段时间内的利用率,其中鲜艳的颜色代表低利用率,而较深的颜色代表高利用率。请参阅图右侧带标注的颜色条,了解各个颜色深浅程度所对应的利用率。
规则
使用规则选项卡查找训练作业分析规则的分析摘要。如果在训练作业中激活了分析规则,则文本将以纯白色文本突出显示。未激活的规则以灰色文本灰显。要激活这些规则,请按照使用由 Amazon SageMaker Debugger 管理的内置分析器规则中的说明进行操作。