使用 Amazon CloudWatch 和 Amazon Lambda 对规则进行操作
Amazon CloudWatch 收集 Amazon SageMaker AI 模型训练作业日志和 Amazon SageMaker Debugger 规则处理作业日志。使用 Amazon CloudWatch Events 和 Amazon Lambda 配置 Debugger,以根据 Debugger 规则评估状态采取措施。
示例笔记本
您可以运行以下示例笔记本,这些笔记本是为实验使用 Amazon CloudWatch 和 Amazon Lambda Debugger 内置规则上的操作停止训练作业而准备的。
-
Amazon SageMaker Debugger – 根据规则对 CloudWatch Events 做出反应
此示例笔记本运行的训练作业存在梯度消失问题。在构造 SageMaker AI TensorFlow 估算器时使用 Debugger VanishingGradient 内置规则。当 Debugger 规则检测到问题时,训练作业即告终止。
-
使用 SageMaker Debugger 规则检测停顿的训练并调用操作
此示例笔记本运行一个训练脚本,有一行代码会强制脚本休眠 10 分钟。Debugger StalledTrainingRule 内置规则调用问题并停止训练作业。