Amazon SageMaker 调试程序架构 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 调试程序架构

本主题向您介绍 Amazon SageMaker 调试程序工作流程的高度概述。

调试器支持性能优化识别计算问题(如系统瓶颈和利用不足),并帮助大规模优化硬件资源利用率。

调试器的调试功能模型优化是关于分析在使用优化算法(例如梯度下降及其变化)最小化损失函数时可能出现的非收敛训练问题。

下图演示了 SageMaker 调试器的架构。带有粗体边界线的块是调试程序管理来分析训练作业的内容。


                Amazon SageMaker 调试器的工作原理概述。

调试器将培训作业中的以下数据存储在安全的 Amazon S3 存储桶中:

  • 系统指标— 硬件资源利用率数据,例如 CPU、GPU、CPU 和 GPU 内存、网络以及数据输入和输出 (I/O) 指标。

  • 框架指标— 用于跟踪每次调用或采样的每个框架操作的衡量指标,例如前进过程中的卷积层操作、向后过程中的批量规范化操作、步骤之间的数据加载器处理以及用于计算和更新损失函数的梯度下降算法操作。

  • 输出张量— 标量和模型参数的集合,这些标量和参数在训练 ML 模型时进行向前和向后传递期间不断更新。输出张量包括标量值(精度和损失)和矩阵(权重、梯度、输入图层和输出图层)。

    注意

    默认情况下,调试器会监视和调试 SageMaker 培训作业,而不会在 SageMaker 估计器中配置任何特定于调试器的参数。调试器每 500 毫秒收集一次系统指标,每 500 个步骤收集一次基本输出张量(标量输出,如丢失和准确度)。它还运行ProfilerReport规则来分析系统衡量指标并聚合 Studio 调试器见解仪表板和性能分析报告。调试程序将输出数据保存到您的安全 Amazon S3 存储桶中。

调试器内置规则在处理容器上运行,这些容器旨在通过处理 S3 存储桶中收集的训练数据来评估机器学习模型(请参阅处理数据和评估模型)。内置规则完全由调试程序管理。您也可以创建自己的规则,以便监控要监控的任何问题。

有关使用 SageMaker 调试器提高模型性能的最佳实践,请参阅以下主题。