亚马逊 SageMaker 调试器洞察仪表板控制器 - 亚马逊 SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 SageMaker 调试器洞察仪表板控制器

调试器控制器有不同的组件用于监视和概要分析。在本指南中,您将了解调试器控制器组件。

注意

SageMaker Debugger Insights 仪表板在ml.m5.4xlarge实例上运行 Studio 应用程序来处理和呈现可视化效果。每个 “ SageMaker 调试器洞察” 选项卡运行一个 Studio 内核会话。多个 SageMaker Debugger Insights 选项卡的多个内核会话在单个实例上运行。当您关闭 SageMaker Debugger Insights 选项卡时,相应的内核会话也会关闭。Studio 应用程序保持活动状态并根据ml.m5.4xlarge实例使用量产生费用。有关定价的信息,请参阅 Amazon SageMaker 定价页面。

重要

使用完 SageMaker Debugger Insights 控制面板后,关闭该ml.m5.4xlarge实例以避免产生费用。有关如何关闭实例的说明,请参阅关闭亚马逊调 SageMaker 试器洞察实例

SageMaker 调试器洞察控制器用户界面

使用位于 Insights 仪表板左上角的调试器控制器,您可以刷新仪表板、配置或更新用于监控系统指标的调试器设置、停止训练作业以及下载调试器分析报告。


                    SageMaker 调试器洞察仪表板控制器
  • 如果要手动刷新仪表板,请选择刷新按钮(左上角的圆形箭头),如前面的屏幕截图所示。

  • 对于使用 SageMaker Python SDK 启动的任何 SageMaker 训练作业,监控切换按钮默认处于启用状态。如果未激活,则可以使用切换按钮开始监视。在监控期间,Debugger 仅收集资源利用率指标来检测计算问题,例如 CPU 瓶颈和 GPU 利用率不足。有关 Debugger 监控的资源利用率问题的完整列表,请参见调试器内置规则,用于分析硬件系统资源利用率(系统指标)

  • 配置监控按钮会打开一个弹出窗口,您可以使用该窗口来设置或更新数据收集频率和保存数据的 S3 路径。

    
                            用于配置 Debugger 监视设置的弹出窗口

    您可以指定以下字段的值。

    • S3 存储桶 URI:指定基本 S3 存储桶 URI。

    • 每隔一段时间收集监控数据:选择收集系统指标的时间间隔。您可以从下拉列表中选择一个监控间隔。可用间隔为 100 毫秒、200 毫秒、500 毫秒(默认)、1 秒、5 秒和 1 分钟。

      注意

      如果您选择较低的时间间隔之一,则可以增加资源利用率指标的粒度,这样您就可以以更高的时间分辨率捕获峰值和异常情况。但是,分辨率越高,要处理的系统指标就越大。这可能会带来额外的开销并影响整体培训和处理时间。

  • 使用停止训练按钮,可以在发现资源利用率异常时停止训练作业。

  • 使用 “下载报告” 按钮,您可以使用 D SageMaker ebugger 的内置ProfilerReport规则下载汇总的分析报告。当您将内置ProfilerReport规则添加到估算器时,该按钮将被激活。有关更多信息,请参阅配置内置 Profiler 规则使用 SageMaker 调试器生成的分析报告