数据质量
数据质量监控会自动监控生产中的机器学习 (ML) 模型,并在出现数据质量问题时向您发送通知。生产中的机器学习模型必须对实际数据进行预测,而这些数据并不像大多数训练数据集那样经过了精心策划。如果模型在生产过程中接收到的数据的统计性质偏离了训练所依据的基准数据的性质,则模型将开始失去其预测的准确性。Amazon SageMaker Model Monitor 使用规则检测数据偏差,并在发生数据偏差时向您发出警报。要监控数据质量,请执行以下步骤:
-
启用数据捕获。这会捕获来自实时推理端点或批量转换作业的推理输入和输出,并将数据存储在 Amazon S3 中。有关更多信息,请参阅数据采集。
-
创建基准。在此步骤中,运行基准作业以分析您提供的输入数据集。该基准使用 Deequ
(一个基于 Apache Spark 构建的开源库,用于衡量大型数据集中的数据质量)计算每项特征的基准架构约束和统计数据。有关更多信息,请参阅创建基准。 -
定义和计划数据质量监控作业。有关数据质量监控作业的具体信息和代码示例,请参阅计划数据质量监控作业。有关监控作业的一般信息,请参阅计划监控作业。
-
(可选)使用预处理和后处理脚本来转换数据质量分析得出的数据。有关更多信息,请参阅预处理和后处理。
-
-
查看数据质量指标。有关更多信息,请参阅统计数据的架构(statistics.json 文件)。
-
将数据质量监控与 Amazon CloudWatch 集成。有关更多信息,请参阅 CloudWatch 指标。
-
解释监控作业的结果。有关更多信息,请参阅解释结果。
-
如果您使用的是实时端点,请使用 SageMaker Studio 启用数据质量监控并将结果可视化。有关更多信息,请参阅在 Amazon SageMaker Studio 中可视化实时端点的结果。
注意
Model Monitor 仅计算表格数据的模型指标和统计数据。例如,仍然可以监控将图像作为输入并根据该图像输出标签的图像分类模型。Model Monitor 将能够计算输出(而不是输入)的指标和统计数据。