本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker 调试器见解控制面板控制器
Debugger 控制器有不同的组件用于进行监控和分析。在本指南中,您将了解 Debugger 控制器组件。
注意
SageMaker Debugger Insights 仪表板在ml.m5.4xlarge
实例上运行 Studio Classic 应用程序来处理和呈现可视化效果。每个 “ SageMaker 调试器见解” 选项卡都运行一个 Studio Classic 在单个实例上运行多个 SageMaker Debugger Insights 选项卡的多个内核会话。关闭 “ SageMaker 调试器见解” 选项卡时,相应的内核会话也会关闭。Studio Classic 应用程序保持活动状态,并会根据ml.m5.4xlarge
实例使用量产生费用。有关定价的信息,请参阅 Amazon SageMaker 定价
重要
使用 SageMaker Debugger Insights 仪表板后,请关闭ml.m5.4xlarge
实例以免产生费用。有关如何关闭实例的说明,请参阅关闭 Amazon SageMaker 调试器洞察实例。
SageMaker 调试器见解控制器用户界面
使用位于 Insights 控制面板左上角的 Debugger 控制器,您可以刷新控制面板、配置或更新用于监控系统指标的 Debugger 设置、停止训练作业以及下载 Debugger 分析报告。
-
如果您想手动刷新控制面板,请选择刷新按钮(左上角的圆形箭头),如前面的屏幕截图所示。
-
对于使用 SageMaker Python 启动的任何 SageMaker 训练作业,“监控” 切换按钮默认处于启用状态SDK。如果未激活,您可以使用切换按钮启动监控。在监控期间,Debugger 仅收集资源利用率指标来检测CPU瓶颈和GPU利用率不足等计算问题。有关调试器监控的资源利用率问题的完整列表,请参阅用于分析硬件系统资源利用率(系统指标)的调试器内置规则。
-
配置监控按钮可打开一个弹出窗口,您可以使用该窗口设置或更新数据收集频率以及保存数据的 S3 路径。
您可以为以下字段指定值。
-
S3 存储桶 URI:指定基本 S3 存储桶URI。
-
收集监控数据每:选择收集系统指标的时间间隔。您可以使用下拉列表选择一个监控间隔。可用间隔包括 100 毫秒、200 毫秒、500 毫秒(默认值)、1 秒、5 秒和 1 分钟。
注意
如果您选择一个较短的时间间隔,则可以提高资源利用率指标的粒度,这样您就可以在较高的时间分辨率下捕获峰值和异常值。但是,分辨率越高,要处理的系统指标的数量就越大。这可能会带来额外的开销,并影响整体训练和处理时间。
-
-
使用停止训练按钮,您可以在发现资源利用率异常时停止训练作业。
-
使用 “下载报告” 按钮,您可以使用 D SageMaker ebugger 的内置ProfilerReport规则下载聚合的分析报告。当您将内置ProfilerReport规则添加到估算器时,该按钮即被激活。有关更多信息,请参阅配置内置 Profiler 规则和使用 SageMaker 调试器生成的分析报告。