浏览 Amazon SageMaker Debugger Insights 控制面板 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

浏览 Amazon SageMaker Debugger Insights 控制面板

当您启动 SageMaker 训练作业时,SageMaker Debugger 默认开始监控 Amazon EC2 实例的硬件系统资源利用情况。您可以通过 Insights 控制面板跟踪系统利用率、统计数据概览和内置规则分析。本指南将引导您了解 SageMaker Debugger Insights 控制面板以下选项卡的内容:系统指标规则

注意

SageMaker Debugger Insights 控制面板在 ml.m5.4xlarge 实例上运行 Studio 应用程序来处理和呈现可视化对象。每个 SageMaker Debugger Insights 选项卡运行一个 Studio 内核会话。SageMaker Debugger Insights 选项卡的多个内核会话在单个实例上运行。关闭 SageMaker Debugger Insights 选项卡时,相应的内核会话也将关闭。Studio 应用程序仍然保持活动状态,并会因为使用 ml.m5.4xlarge 实例而产生费用。有关定价的更多信息,请参阅 Amazon SageMaker 定价页面。

重要

完成了 SageMaker Debugger Insights 的使用后,请关闭 ml.m5.4xlarge 实例以避免产生费用。有关如何关闭实例的说明,请参阅关闭 Amazon SageMaker Debugger Insights 实例

重要

报告中提供的图表和建议仅供参考,并不确保准确无误。您应负责对其中的信息进行单独评测。

系统指标

系统指标选项卡中,您可以使用摘要表和时间序列图来了解资源利用率。

资源利用率摘要

此摘要表显示所有节点的计算资源利用率指标的统计信息(表示为 algo-n)。资源利用率指标包括 CPU 总利用率、GPU 总利用率、CPU 内存总利用率、GPU 内存总利用率、总 I/O 等待时间以及总网络流量(以字节为单位)。该表显示了最小值和最大值,以及 p99、p90 和 p50 百分位数。


                        资源利用率摘要表

资源利用率时间序列图

在时间序列图中可以查看资源利用率的更多详细信息,并确定每个实例在什么时间窗口中出现了任何不希望出现的利用率数据,例如 GPU 利用率低和 CPU 瓶颈可能导致浪费实例成本。

时间序列图控制器 UI

以下屏幕截图显示了用于调整时间序列图的 UI 控制器。


                        SageMaker Debugger Insights 控制面板中的 UI 控制器。
  • algo-1:使用此下拉菜单选择要查看的节点。

  • 放大:使用此按钮可以放大时间序列图,以查看较短的时间窗口。

  • 放大:使用此按钮可以缩小时间序列图,以查看较长的时间窗口。

  • 向左平移:将时间序列图表移动到较早的时间窗口。

  • 向右平移:将时间序列图表移动到较晚的时间窗口。

  • 固定时间范围:使用此复选框来固定或者返回到时间序列图,以显示从第一个数据点到最后一个数据点的完整视图。

CPU 利用率和 I/O 等待时间

前两个图表显示一段时间内的 CPU 利用率和 I/O 等待时间。默认情况下,这些图表显示 CPU 利用率和在 CPU 核心上花费的 I/O 等待时间的平均值。您可以通过选择标签来选择一个或多个 CPU 核心,从而在单独的图表上绘制其图形并对不同核心的利用率进行比较。您可以拖动和缩放图形来仔细查看特定的时间窗口。


                        debugger-studio-insight-mockup

GPU 利用率和 GPU 内存利用率

下图显示一段时间的 GPU 利用率和 GPU 内存利用率。默认情况下,这些图表显示一段时间内的平均利用率。您可以选择 GPU 核心标签来查看各个核心的利用率。利用 GPU 核心总数上的利用率平均值来表示整个硬件系统资源的平均利用率。通过查看平均利用率,您可以查看 Amazon EC2 实例的整体系统资源使用情况。下图显示具有 8 个 GPU 核心的 ml.p3.16xlarge 实例上的示例训练作业。您可以监控训练作业是否良好分布,是否充分利用了所有 GPU。


                        debugger-studio-insight-mockup

一段时间的整体系统利用率

下面的热图显示了在二维图上投影的一段时间内的 ml.p3.16xlarge 实例整体系统利用率。各个 CPU 和 GPU 核心在垂直轴上列出,并使用颜色方案记录一段时间内的利用率,其中较浅的颜色代表低利用率,较深的颜色代表高利用率。请参阅图右侧带标注的颜色条,了解各个颜色深浅程度所对应的利用率。


                        debugger-studio-insight-mockup

规则

使用规则选项卡查找训练作业分析规则的分析摘要。如果在训练作业中激活了分析规则,则文本将以纯白色文本突出显示。未激活的规则以灰色文本灰显。要激活这些规则,请按照配置由 Amazon SageMaker Debugger 管理的内置探查器规则中的说明进行操作。


                    SageMaker Debugger Insights 控制面板中的规则选项卡