Amazon SageMaker Debugger Insights 控制面板控制器 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon SageMaker Debugger Insights 控制面板控制器

Debugger 控制器有不同的组件用于进行监控和分析。在本指南中,您将了解 Debugger 控制器组件。

注意

SageMaker Debugger Insights 控制面板在 ml.m5.4xlarge 实例上运行 Studio 应用程序来处理和呈现可视化对象。每个 SageMaker Debugger Insights 选项卡运行一个 Studio 内核会话。SageMaker Debugger Insights 选项卡的多个内核会话在单个实例上运行。关闭 SageMaker Debugger Insights 选项卡时,相应的内核会话也将关闭。Studio 应用程序仍然保持活动状态,并会因为使用 ml.m5.4xlarge 实例而产生费用。有关定价的更多信息,请参阅 Amazon SageMaker 定价页面。

重要

完成了 SageMaker Debugger Insights 的使用后,请关闭 ml.m5.4xlarge 实例以避免产生费用。有关如何关闭实例的说明,请参阅关闭 Amazon SageMaker Debugger Insights 实例

SageMaker Debugger Insights 控制器 UI

使用位于 Insights 控制面板左上角的 Debugger 控制器,您可以刷新控制面板、配置或更新用于监控系统指标的 Debugger 设置、停止训练作业以及下载 Debugger 分析报告。


                    SageMaker Debugger Insights 控制面板控制器
  • 如果您想手动刷新控制面板,请选择刷新按钮(左上角的圆形箭头),如前面的屏幕截图所示。

  • 对于使用 SageMaker Python SDK 启动的任何 SageMaker 训练作业,监控切换按钮默认处于启用状态。如果未激活,您可以使用切换按钮启动监控。在监控期间,Debugger 只收集资源利用率指标来检测计算问题,例如 CPU 瓶颈和 GPU 利用率不足。有关 Debugger 监控的资源利用率问题的完整列表,请参阅Debugger 内置规则,用于分析硬件系统资源利用率(系统指标)

  • 配置监控按钮可打开一个弹出窗口,您可以使用该窗口设置或更新数据收集频率以及保存数据的 S3 路径。

    
                            用于配置 Debugger 监控设置的弹出窗口

    您可以为以下字段指定值。

    • S3 存储桶 URI:指定基本 S3 存储桶 URI。

    • 收集监控数据每:选择收集系统指标的时间间隔。您可以使用下拉列表选择一个监控间隔。可用间隔包括 100 毫秒、200 毫秒、500 毫秒(默认值)、1 秒、5 秒和 1 分钟。

      注意

      如果您选择一个较短的时间间隔,则可以提高资源利用率指标的粒度,这样您就可以在较高的时间分辨率下捕获峰值和异常值。但是,分辨率越高,要处理的系统指标的数量就越大。这可能会带来额外的开销,并影响整体训练和处理时间。

  • 使用停止训练按钮,您可以在发现资源利用率异常时停止训练作业。

  • 使用下载报告按钮,您可以下载使用 SageMaker Debugger 内置 ProfilerReport 规则生成的聚合分析报告。当您将内置的 ProfilerReport 规则添加到估算器时,该按钮即被激活。有关更多信息,请参阅配置内置探查器规则使用 SageMaker Debugger 生成的分析报告