监控数据和模型质量 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

监控数据和模型质量

Amazon SageMaker 模型监控器会监控生产中的 Amazon SageMaker 机器学习模型的质量。您可以使用实时端点(或定期运行的批量转换作业)设置持续监控,也可以对异步批量转换作业进行按计划监控。借助模型监控器,您可以设置警报,以便在模型质量出现偏差时通知您。对这些偏差的早期主动检测使您能够采取纠正措施,例如重新训练模型、审计上游系统或解决质量问题,而不必手动监控模型或构建其他工具。您可以使用不需要编码的模型监控器预构建监控功能。您还可以通过编码来提供自定义分析,从而灵活地监控模型。

模型监控器提供以下类型的监控:

模型监控器的工作原理

Amazon SageMaker 模型监控器会自动监控生产中的机器学习 (ML) 模型,并在出现数据质量问题时向您发送通知。模型监控器使用规则来检测模型中的偏差,并在出现偏差时提醒您。下图显示了将模型部署到实时端点情况下此过程的工作原理。


                使用 Amazon SageMaker 模型监控器的模型监控过程。

您还可以使用模型监控器来监控批量转换作业,而不是实时端点。在这种情况下,模型监控器将监控推理输入和输出,而不是接收对端点的请求并跟踪预测。下图显示了监控批量转换作业的过程。


                使用 Amazon SageMaker 模型监控器的模型监控过程。

要启用模型监控,您需要执行以下步骤,这些步骤在各种数据收集、监控和分析过程中跟随数据路径。

  • 对于实时端点,支持该端点捕获从传入请求到已训练机器学习模型的数据以及由此产生的模型预测结果。

  • 对于批量转换作业,支持捕获批量转换输入和输出的数据。

  • 从用于训练模型的数据集创建基准。该基准会计算指标并建议指标的约束条件。将模型中的实时预测或批量预测与约束条件进行比较,如果这些预测超出约束值,则报告为违规。

  • 创建一个监控计划,该计划指定要收集的数据、数据收集频率、数据分析方式以及生成的报告。

  • 检查将最新数据与基准进行比较的报告,并观察报告的任何违规行为以及来自 Amazon CloudWatch 的指标和通知。

注意
  • 模型监控器仅计算表格数据的模型指标和统计数据。例如,仍然可以监控将图像作为输入并根据该图像输出标签的图像分类模型。模型监控器将能够计算输出(而不是输入)的指标和统计数据。

  • 模型监控器目前仅支持托管单个模型的端点,不支持监控多模型端点。有关使用多模型终端节点的信息,请参阅在一个端点后的一个容器中托管多个模型

  • 模型监控器支持监控推理管道,但捕获和分析数据是针对整个管道而不是针对管道中的各个容器完成的。

  • 为了防止对推理请求产生影响,数据捕获功能会在磁盘利用率较高时停止捕获请求。建议将磁盘利用率保持在 75% 以下,以确保数据捕获功能继续捕获请求。

  • 如果在自定义 Amazon VPC 中启动 SageMaker Studio,则需要创建 VPC 端点,使模型监控器能够与 Amazon S3 和 CloudWatch 通信。有关 VPC 端点的信息,请参阅《Amazon Virtual Private Cloud 用户指南》中的 VPC 端点。有关在自定义 VPC 中启动 SageMaker Studio 的信息,请参阅将 VPC 中的 SageMaker Studio 笔记本连接到外部资源

模型监控器示例笔记本

有关使用模型监控器和实时端点完成整个端到端工作流的示例笔记本,请参阅 Amazon SageMaker 模型监控器简介

有关可视化监控计划中选定执行的 statistics.json 文件的示例笔记本,请参阅模型监控器可视化

有关如何创建和访问可用于在 SageMaker 中运行示例的 Jupyter 笔记本实例的说明,请参阅 Amazon SageMaker 笔记本实例。创建笔记本实例并将其打开后,选择 SageMaker 示例选项卡以查看所有 SageMaker 示例的列表。要打开笔记本,请选择笔记本的使用选项卡,然后选择创建副本