Amazon SageMaker 调试器见解控制面板控制器

Debugger 控制器有不同的组件用于进行监控和分析。在本指南中，您将了解 Debugger 控制器组件。

注意

SageMaker Debugger Insights 仪表板在ml.m5.4xlarge实例上运行 Studio Classic 应用程序来处理和呈现可视化效果。每个 “ SageMaker 调试器见解” 选项卡都运行一个 Studio Classic 在单个实例上运行多个 SageMaker Debugger Insights 选项卡的多个内核会话。关闭 “ SageMaker 调试器见解” 选项卡时，相应的内核会话也将关闭。Studio 应用程序仍然保持活动状态，并会因为使用 ml.m5.4xlarge 实例而产生费用。有关定价的信息，请参阅 Amazon SageMaker 定价页面。

重要

使用 SageMaker Debugger Insights 仪表板后，请关闭ml.m5.4xlarge实例以免产生费用。有关如何关闭实例的说明，请参阅关闭 Amazon SageMaker 调试器洞察实例。

SageMaker 调试器见解控制器用户界面

使用位于 Insights 控制面板左上角的 Debugger 控制器，您可以刷新控制面板、配置或更新用于监控系统指标的 Debugger 设置、停止训练作业以及下载 Debugger 分析报告。

如果您想手动刷新控制面板，请选择刷新按钮（左上角的圆形箭头），如前面的屏幕截图所示。
对于使用 SageMaker Python SDK 启动的任何 SageMaker 训练作业，“监控” 切换按钮默认处于启用状态。如果未激活，您可以使用切换按钮启动监控。在监控期间，Debugger 只收集资源利用率指标来检测计算问题，例如 CPU 瓶颈和 GPU 利用率不足。有关 Debugger 监控的资源利用率问题的完整列表，请参阅 Debugger 用于分析硬件系统资源利用率（系统指标）的内置规则。
配置监控按钮可打开一个弹出窗口，您可以使用该窗口设置或更新数据收集频率以及保存数据的 S3 路径。

您可以为以下字段指定值。
- S3 存储桶 URI：指定基本 S3 存储桶 URI。
- 收集监控数据每：选择收集系统指标的时间间隔。您可以使用下拉列表选择一个监控间隔。可用间隔包括 100 毫秒、200 毫秒、500 毫秒（默认值）、1 秒、5 秒和 1 分钟。
  
  注意
  如果您选择一个较短的时间间隔，则可以提高资源利用率指标的粒度，这样您就可以在较高的时间分辨率下捕获峰值和异常值。但是，分辨率越高，要处理的系统指标的数量就越大。这可能会带来额外的开销，并影响整体训练和处理时间。
使用停止训练按钮，您可以在发现资源利用率异常时停止训练作业。
使用 “下载报告” 按钮，您可以使用 D SageMaker ebugger 的内置ProfilerReport规则下载聚合的分析报告。当您将内置ProfilerReport规则添加到估算器时，该按钮即被激活。有关更多信息，请参阅配置内置 Profiler 规则和使用 SageMaker 调试器生成的分析报告。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

打开 “ SageMaker 调试器见解” 仪表板

浏览 SageMaker 调试器见解仪表板