本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊 SageMaker 调试器洞察仪表板控制器
调试器控制器有不同的组件用于监视和概要分析。在本指南中,您将了解调试器控制器组件。
注意
SageMaker Debugger Insights 仪表板在ml.m5.4xlarge
实例上运行 Studio 应用程序来处理和呈现可视化效果。每个 “ SageMaker 调试器洞察” 选项卡运行一个 Studio 内核会话。多个 SageMaker Debugger Insights 选项卡的多个内核会话在单个实例上运行。当您关闭 SageMaker Debugger Insights 选项卡时,相应的内核会话也会关闭。Studio 应用程序保持活动状态并根据ml.m5.4xlarge
实例使用量产生费用。有关定价的信息,请参阅 Amazon SageMaker 定价
重要
使用完 SageMaker Debugger Insights 控制面板后,关闭该ml.m5.4xlarge
实例以避免产生费用。有关如何关闭实例的说明,请参阅关闭亚马逊调 SageMaker 试器洞察实例。
SageMaker 调试器洞察控制器用户界面
使用位于 Insights 仪表板左上角的调试器控制器,您可以刷新仪表板、配置或更新用于监控系统指标的调试器设置、停止训练作业以及下载调试器分析报告。

-
如果要手动刷新仪表板,请选择刷新按钮(左上角的圆形箭头),如前面的屏幕截图所示。
-
对于使用 SageMaker Python SDK 启动的任何 SageMaker 训练作业,监控切换按钮默认处于启用状态。如果未激活,则可以使用切换按钮开始监视。在监控期间,Debugger 仅收集资源利用率指标来检测计算问题,例如 CPU 瓶颈和 GPU 利用率不足。有关 Debugger 监控的资源利用率问题的完整列表,请参见调试器内置规则,用于分析硬件系统资源利用率(系统指标)。
-
配置监控按钮会打开一个弹出窗口,您可以使用该窗口来设置或更新数据收集频率和保存数据的 S3 路径。
您可以指定以下字段的值。
-
S3 存储桶 URI:指定基本 S3 存储桶 URI。
-
每隔一段时间收集监控数据:选择收集系统指标的时间间隔。您可以从下拉列表中选择一个监控间隔。可用间隔为 100 毫秒、200 毫秒、500 毫秒(默认)、1 秒、5 秒和 1 分钟。
注意
如果您选择较低的时间间隔之一,则可以增加资源利用率指标的粒度,这样您就可以以更高的时间分辨率捕获峰值和异常情况。但是,分辨率越高,要处理的系统指标就越大。这可能会带来额外的开销并影响整体培训和处理时间。
-
-
使用停止训练按钮,可以在发现资源利用率异常时停止训练作业。
-
使用 “下载报告” 按钮,您可以使用 D SageMaker ebugger 的内置ProfilerReport规则下载汇总的分析报告。当您将内置ProfilerReport规则添加到估算器时,该按钮将被激活。有关更多信息,请参阅配置内置 Profiler 规则和使用 SageMaker 调试器生成的分析报告。