监控数据质量 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

监控数据质量

数据质量监控自动监控生产中的机器学习 (ML) 模型,并在出现数据质量问题时通知您。生产中的 ML 模型必须对实际数据进行预测,而这些数据并不像大多数训练数据集那样经过了精心策划。如果您的模型在生产中接收的数据的统计性质偏离了其训练所依据的基准数据的性质,则模型在预测中开始降低准确性。 Amazon SageMaker 模型监控器 使用规则检测数据偏差,并在发生数据漂移时提醒您。要监控数据质量,请执行以下步骤:

  • 启用数据捕获。这将从实时推理终端节点捕获推理输入和输出,并将数据存储在 中Amazon S3。有关更多信息,请参阅捕获数据

  • 创建基准。在此步骤中,您将运行基准作业来分析您提供的输入数据集。基准使用 Deequ(一个基于 Apache Spark 构建的开源库,用于衡量大型数据集中的数据质量)计算每项功能的基准架构约束和统计数据。有关更多信息,请参阅创建基准

  • 定义和计划数据质量监控作业。有关更多信息,请参阅计划监控作业

  • 查看数据质量指标。有关更多信息,请参阅统计数据的架构(statistics.json 文件)

  • 将数据质量监控与 集成Amazon CloudWatch。有关更多信息,请参阅CloudWatch 指标

  • 解释监控作业的结果。有关更多信息,请参阅解释结果

  • 使用 SageMaker Studio 启用数据质量监控和可视化结果。有关更多信息,请参阅在 Amazon SageMaker Studio 中可视化结果