摄取 Ground Truth 标签并将其与预测合并 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

摄取 Ground Truth 标签并将其与预测合并

模型质量监控将模型的预测与地面真相标签进行比较,以衡量模型的质量。为此,您需要定期为终端节点捕获的数据添加标签并将其上传到 Amazon S3。

要将地面真相标签与捕获的预测数据匹配,数据集中的每条记录都必须有唯一的标识符。地面真相数据的每个记录的结构如下所示:

{ "groundTruthData": { "data": "1", "encoding": "CSV" # only CSV supported at launch, we assume "data" only consists of label }, "eventMetadata": { "eventId": "aaaa-bbbb-cccc" }, "eventVersion": "0" }

groundTruthData结构,eventId的值可以是以下值之一:

  • eventId— 此 ID 在用户调用终端节点时触发终端节点。

  • inferenceId— 呼叫者在调用终端节点时提供此 ID。

如果inferenceId存在于捕获的数据记录中,模型监视器使用它将捕获的数据与地面真相记录合并。你有责任确保inferenceId在地面真相记录中匹配inferenceId在捕获的记录中。如果inferenceId在捕获的数据中不存在,模型监视器使用eventId从捕获的数据记录中把它们与地面真相记录相匹配。

您必须将基本真实数据上传到与捕获数据具有相同路径格式的 Amazon S3 存储桶,该存储桶的格式如下:

s3://bucket/prefixyyyy/mm/dd/hh

此路径中的日期是收集地面真相标签的日期,不必与生成推理的日期相匹配。

创建并上传地面真相标签后,在创建监控作业时将标签的位置作为参数包括在内。如果您将Amazon SDK for Python (Boto3)通过将地面真相标签的位置指定为S3Uri字段中的字段GroundTruthS3Input调用中的参数create_model_quality_job_definition方法。如果您使用的是 SageMaker Python SDK,请将实际情况标签的位置指定为ground_truth_input调用中的参数create_monitoring_scheduleModelQualityMonitor对象。