Amazon SageMaker 调试器见解控制面板控制器 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 调试器见解控制面板控制器

Debugger 控制器有不同的组件用于进行监控和分析。在本指南中,您将了解 Debugger 控制器组件。

注意

SageMaker Debugger Insights 仪表板在ml.m5.4xlarge实例上运行 Studio Classic 应用程序来处理和呈现可视化效果。每个 “ SageMaker 调试器见解” 选项卡都运行一个 Studio Classic 在单个实例上运行多个 SageMaker Debugger Insights 选项卡的多个内核会话。关闭 “ SageMaker 调试器见解” 选项卡时,相应的内核会话也会关闭。Studio Classic 应用程序保持活动状态,并会根据ml.m5.4xlarge实例使用量产生费用。有关定价的信息,请参阅 Amazon SageMaker 定价页面。

重要

使用 SageMaker Debugger Insights 仪表板后,请关闭ml.m5.4xlarge实例以免产生费用。有关如何关闭实例的说明,请参阅关闭 Amazon SageMaker 调试器洞察实例

SageMaker 调试器见解控制器用户界面

使用位于 Insights 控制面板左上角的 Debugger 控制器,您可以刷新控制面板、配置或更新用于监控系统指标的 Debugger 设置、停止训练作业以及下载 Debugger 分析报告。

SageMaker 调试器见解仪表板控制器
  • 如果您想手动刷新控制面板,请选择刷新按钮(左上角的圆形箭头),如前面的屏幕截图所示。

  • 对于使用 SageMaker Python SDK 启动的任何 SageMaker 训练作业,“监控” 切换按钮默认处于启用状态。如果未激活,您可以使用切换按钮启动监控。在监控期间,Debugger 只收集资源利用率指标来检测计算问题,例如 CPU 瓶颈和 GPU 利用率不足。有关 Debugger 监控的资源利用率问题的完整列表,请参阅Debugger 内置规则,用于分析硬件系统资源利用率(系统指标)

  • 配置监控按钮可打开一个弹出窗口,您可以使用该窗口设置或更新数据收集频率以及保存数据的 S3 路径。

    用于配置 Debugger 监控设置的弹出窗口

    您可以为以下字段指定值。

    • S3 存储桶 URI:指定基本 S3 存储桶 URI。

    • 收集监控数据每:选择收集系统指标的时间间隔。您可以使用下拉列表选择一个监控间隔。可用间隔包括 100 毫秒、200 毫秒、500 毫秒(默认值)、1 秒、5 秒和 1 分钟。

      注意

      如果您选择一个较短的时间间隔,则可以提高资源利用率指标的粒度,这样您就可以在较高的时间分辨率下捕获峰值和异常值。但是,分辨率越高,要处理的系统指标的数量就越大。这可能会带来额外的开销,并影响整体训练和处理时间。

  • 使用停止训练按钮,您可以在发现资源利用率异常时停止训练作业。

  • 使用 “下载报告” 按钮,您可以使用 D SageMaker ebugger 的内置ProfilerReport规则下载聚合的分析报告。当您将内置ProfilerReport规则添加到估算器时,该按钮即被激活。有关更多信息,请参阅配置内置 Profiler 规则使用 SageMaker 调试器生成的分析报告