本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊SageMaker调试程序架构
本主题将指导您高度概括介绍 AmazonSageMaker调试程序工作流。
调试器支持分析功能性能优化识别计算问题,例如系统瓶颈和利用不足,并帮助大规模优化硬件资源利用率。
调试器的调试功能模型优化是关于分析可能出现的非融合训练问题,这些问题同时使用优化算法最大限度地减少损失函数,例如梯度下降及其变化。
下图演示了的架构SageMaker调试程序。带粗边界线的方块是调试器用于分析训练作业的方法。

调试器将训练作业中的以下数据存储在安全的 Amazon S3 存储桶中:
-
系统指标— 硬件资源利用率数据,例如 CPU、GPU、CPU 和 GPU 内存、网络以及数据输入和输出 (I/O) 指标。
-
框架指标— 用于跟踪每次调用或采样的每个框架操作的指标,例如向前传递中的卷积层操作、向后传递中的批量标准化操作、步骤之间的数据加载器进程以及用于计算和更新损失函数的梯度下降算法操作。
-
输出张量— 在训练机器学习模型的同时,在向前和向后传递期间不断更新的标量和模型参数的集合。输出张量包括标量值(精度和损耗)和矩阵(权重、渐变、输入图层和输出图层)。
注意 默认情况下,调试器会监视和调试SageMaker在中配置了没有任何调试器特定参数的训练作业SageMaker估算法。调试器每 500 毫秒收集系统指标,每 500 个步骤收集基本输出张量(标量输出,如损耗和准确度)。它还运行
ProfilerReport
规则来分析系统指标并聚合 Studio Debug 见解仪表板和性能分析报告。调试器将输出数据保存到您的安全 Amazon S3 存储桶。
调试器内置规则在处理容器上运行,这些规则旨在通过处理 S3 存储桶中收集的训练数据来评估机器学习模型(请参阅处理数据和评估模型)。调试程序完全管理内置规则。您也可以创建自己的模型自定义规则来监控任何要监控的问题。
请参阅以下主题,了解使用以下方法改进模型性能的最佳实践:SageMaker调试程序。