本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控模型的数据和模型质量、偏见和可解释性
亚马逊 SageMaker 模型监控器持续监控亚马逊的质量 SageMaker 生产中的机器学习模型。利用模型监控器,您可以设置在模型质量出现偏差时向您发送通知的警报。对这些偏差的早期主动检测使您能够采取纠正措施,例如重新训练模型、审计上游系统或解决质量问题,而不必手动监控模型或构建其他工具。您可以使用不需要编写代码的模型监控器预构建监控功能。您还可以通过编码来提供自定义分析,从而灵活地监控模型。
模型监视器提供以下监控类型:
-
监控数据质量-监控数据质量的漂移。
-
监控模型质量-监控模型质量指标的偏移,例如准确性。
-
监控生产中模型的偏差漂移-监控模型预测中的偏差。
-
监控生产中模型的功能归因漂移-监控功能归因的偏移。
主题
模型监控器的工作原
亚马逊 SageMaker Model Monitor 自动监控生产中的机器学习 (ML) 模型,并在出现质量问题时向您发送通知。模型监视器使用规则来检测模型中的漂移,并在发生漂移时向您发出警报。下图说明了此流程的工作方式。

要启用模型监控,您需要执行以下步骤,这些步骤在各种数据收集、监控和分析过程中跟随数据路径:
-
使终端节点能够捕获从传入请求到训练的 ML 模型和结果模型预测的数据。
-
从用于训练模型的数据集创建基准。基线计算指标并建议对指标的约束条件。模型的实时预测将与约束条件进行比较,如果这些预测超出了约束值,则将其报告为违规情况。
-
创建一个监控计划,指定要收集哪些数据、数据收集频率、数据分析方式以及生成哪些报告。
-
检查将最新数据与基准进行比较的报告,并观察报告的任何违规行为以及来自 Amazon CloudWatch 的指标和通知。
-
模型监视器目前仅支持表格数据。
Model Monitor 目前仅支持托管单个模型的终端节点,不支持监控多模型终端节点。有关使用多模型终端节点的信息,请参阅在一个端点后面的一个容器中托管多个模。
-
模型监控器支持监控推理管道,但捕获和分析数据是针对整个管道而不是针对管道中的各个容器完成的。
为了防止对推理请求的影响,Data Capture 停止捕获高磁盘使用率的请求。建议将磁盘利用率保持在 75% 以下,以确保数据捕获继续捕获请求。
如果你启动 SageMaker Studio 在自定义 Amazon VPC 中,您需要创建 VPC 终端节点以使模型监视器能够与 Amazon S3 和 CloudWatch 进行通信。有关 VPC 终端节点的信息,请参阅VPC 终端节点中的Amazon Virtual Private Cloud 用户指南. 有关启动的信息 SageMaker 自定义 VPC 中的 Studio,请参阅Connect (连接) SageMaker VPC 中的 Studio 笔记本电脑到外部资源.
模型监控器示例笔记本
对于带您完成完整操作的示例笔记本 end-to-end 模型监视器的工作流程,请参阅亚马逊简介 SageMaker 模型监控器
有关可视化监控计划中选定执行的 statistics.json 文件的示例笔记本,请参阅模型监控器可视化
有关向您展示如何创建和访问可用于在 SageMaker 中运行示例的 Jupyter 笔记本实例的说明,请参阅使用 Amazon SageMaker 笔记本实例. 在您创建笔记本实例并打开该实例并打开该实例后,请选择SageMaker 示例选项卡以查看所有 SageMaker 示例。要打开笔记本,请选择笔记本使用选项卡并选择创建副本.