使用 Amazon 模型监视器监控数据和 SageMaker 模型质量

Amazon SageMaker Model Monitor 监控生产中亚马逊 SageMaker AI 机器学习模型的质量。通过模型监控器，您可以设置

利用实时端点进行持续监控。
通过定期运行的批量转换任务进行持续监控。
对异步批量转换作业进行计划监控。

借助 Model Monitor，您可以设置警报，以便在模型质量出现偏差时通知您。及早主动发现这些偏差，就能采取纠正措施。您可以采取重新训练模型、审核上游系统或修复质量问题等措施，而无需手动监控模型或构建额外的工具。您可以使用不需要编码的 Model Monitor 预构建监控功能。您还可以通过编码来提供自定义分析，从而灵活地监控模型。

Model Monitor 提供以下类型的监控：

数据质量 - 监控数据质量的偏移。
模型质量 - 监控模型质量指标（如准确性）的偏移。
生产中模型的偏压飘移 - 监控模型预测中的偏差。
生产中模型的功能归属漂移 - 监控特征归因中的偏移。

主题

Amazon SageMaker 模型监视器的工作原理

Amazon M SageMaker odel Monitor 会自动监控生产中的机器学习 (ML) 模型，并在出现质量问题时通知您。Model Monitor 使用规则来检测模型中的偏差，并在出现偏差时提醒您。下图显示了将模型部署到实时端点情况下此过程的工作原理。

您还可以使用 Model Monitor 来监控批量转换作业，而不是实时端点。在这种情况下，模型监控器不是接收对端点的请求并跟踪预测结果，而是监控推理的输入和输出。下图显示了监控批量转换作业的过程。

要启用模型监控，请采取以下步骤。这些步骤跟踪数据在各种数据收集、监测和分析过程中的路径。

对于实时端点，支持该端点捕获从传入请求到已训练机器学习模型的数据以及由此产生的模型预测结果。
对于批量转换作业，支持捕获批量转换输入和输出的数据。
从用于训练模型的数据集创建基准。该基准会计算指标并建议指标的约束条件。将模型的实时或批量预测结果与约束条件进行比较。如果超出限制值，则报告为违规。
创建一个监控计划，该计划指定要收集的数据、数据收集频率、数据分析方式以及生成的报告。
检查报告，将最新数据与基线数据进行比较。留意亚马逊举报的任何违规行为、指标和通知 CloudWatch。

备注

Model Monitor 仅计算表格数据的模型指标和统计数据。例如，仍然可以监控将图像作为输入并根据该图像输出标签的图像分类模型。Model Monitor 将能够计算输出（而不是输入）的指标和统计数据。
Model Monitor 目前仅支持托管单个模型的端点，不支持监控多模型端点。有关使用多模型终端节点的信息，请参阅多模型端点。
模型监控器支持对推理管道进行监控。不过，采集和分析数据的对象是整个管道，而不是管道中的单个容器。
为了防止对推理请求产生影响，数据捕获功能会在磁盘利用率较高时停止捕获请求。我们建议您将磁盘利用率保持在 75% 以下，以确保数据捕获继续捕获请求。
如果您在自定义 Amazon VPC 中启动 SageMaker Studio，则必须创建 VPC 终端节点才能让模型监控器与 Amazon S3 和 CloudWatch。有关 VPC 端点的信息，请参阅《Amazon Virtual Private Cloud 用户指南》中的 VPC 端点。有关在自定义 VPC 中启动 SageMaker Studio 的信息，请参阅将 VPC 中的 Studio 笔记本连接到外部资源。

模型监测样本笔记本

有关使用模型监控器和实时终端节点完成 end-to-end工作流程的示例笔记本，请参阅 Amazon SageMaker 模型监控器简介。

有关可视化监控计划中选定执行的 statistics.json 文件的示例笔记本，请参阅 Model Monitor 可视化。

有关如何创建和访问可用于在 SageMaker AI 中运行示例的 Jupyter 笔记本实例的说明，请参阅。Amazon SageMaker 笔记本实例创建并打开笔记本实例后，选择 “SageMaker AI 示例” 选项卡以查看所有 SageMaker AI 示例的列表。要打开笔记本，请选择笔记本的使用选项卡，然后选择创建副本。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

MLOps 故障排除

模型监控