摄取 Ground Truth 标签并将其与预测合并 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

摄取 Ground Truth 标签并将其与预测合并

模型质量监控将您的模型所做的预测与 Ground Truth 标签进行比较,以衡量模型的质量。为此,您需要定期为端点或批量转换作业捕获的数据添加标签,然后将其上传到 Amazon S3。

要将 Ground Truth 标签与捕获的预测数据进行匹配,数据集中的每条记录都必须有一个唯一的标识符。Ground Truth 数据的每条记录的结构如下:

{ "groundTruthData": { "data": "1", "encoding": "CSV" # only CSV supported at launch, we assume "data" only consists of label }, "eventMetadata": { "eventId": "aaaa-bbbb-cccc" }, "eventVersion": "0" }

groundTruthData 结构中,eventId 可以是以下项之一:

  • eventId - 此 ID 是在用户调用端点时自动生成的。

  • inferenceId - 调用方在调用端点时提供此 ID。

如果捕获的数据记录中存在 inferenceId,则模型监控器用它来将捕获的数据与 Ground Truth 记录合并。您负责确保 Ground Truth 记录中的 inferenceId 与所捕获记录中的 inferenceId 进行匹配。如果捕获的数据中不存在 inferenceId,则模型监控器使用所捕获数据记录中的 eventId 将它们与 Ground Truth 记录进行匹配。

您必须将 Ground Truth 数据上传到路径格式与所捕获数据的路径格式相同的 Amazon S3 存储桶,其格式如下:

s3://bucket/prefix/yyyy/mm/dd/hh

此路径中的日期是收集 Ground Truth 标签的日期,不必与生成推理的日期相匹配。

创建并上传 Ground Truth 标签后,请在创建监控作业时将标签的位置作为参数包括在内。如果您使用的是 Amazon SDK for Python (Boto3),请在调用 create_model_quality_job_definition 方法时将 Ground Truth 标签的位置指定为 GroundTruthS3Input 参数的 S3Uri 字段。如果您使用的是 SageMaker Python SDK,请在调用 ModelQualityMonitor 对象的 create_monitoring_schedule 时将 Ground Truth 标签的位置指定为 ground_truth_input 参数。