本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
监控数据质量
数据质量监控自动监控生产中的机器学习 (ML) 模型,并在出现数据质量问题时向您发送通知。生产中的 ML 模型必须对实际数据进行预测,而这些数据并不像大多数训练数据集那样经过了精心策划。如果模型在生产过程中接收到的数据的统计性质偏离了训练所依据的基准数据的性质,则模型将开始失去其预测的准确性。亚马逊 SageMaker Model Monitor 使用规则来检测数据漂移,并在发生数据漂移时提醒. 要监控数据质量,请按照下列步骤操作:
-
启用数据捕获。这将捕获来自实时推理终端节点的推理输入和输出,并将数据存储在 Amazon S3 中。有关更多信息,请参阅 捕获数据。
-
创建基准。在此步骤中,您将运行基线作业来分析您提供的输入数据集。基线使用该基线计算每个要素的基线架构约束和统计信息德渠
,一个基于 Apache Spark 构建的开源库,用于衡量大型数据集中的数据质量。有关更多信息,请参阅 创建基准。 -
定义和安排数据质量监控作业。有关更多信息,请参阅 计划监控作业。
-
查看数据质量指标。有关更多信息,请参阅 统计数据的架构(statistics.json 文件)。
-
将数据质量监控与 Amazon CloudWatch 集成。有关更多信息,请参阅 CloudWatch 指标。
-
解释监控作业的结果。有关更多信息,请参阅 解释结果。
-
使用 SageMaker Studio 可实现数据质量监控和可视化结果。有关更多信息,请参阅 在亚马逊可视化结果 SageMaker 工作室。
亚马逊 SageMaker 模型监视器目前仅支持表格数据。