摄取 Ground Truth 标签并将其与预测合并 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

摄取 Ground Truth 标签并将其与预测合并

模型质量监控将模型的预测与地面真相标签进行比较,以测量模型的质量。为此,您需要定期标记终端节点捕获的数据并将其上传到 Amazon S3。

要将地面真相标注与捕获的预测数据进行匹配,数据集中的每条记录必须具有唯一标识符。地面真相数据的每个记录的结构如下所示:

{ "groundTruthData": { "data": "1", "encoding": "CSV" # only CSV supported at launch, we assume "data" only consists of label }, "eventMetadata": { "eventId": "aaaa-bbbb-cccc" }, "eventVersion": "0" }

groundTruthData结构,eventId的值可以是以下值之一:

  • eventId— 当用户调用终端节点时,将自动生成此 ID。

  • inferenceId— 调用者在调用终端节点时提供此 ID。

如果inferenceId存在于捕获的数据记录中,则模型监视器使用它将捕获的数据与地面真相记录合并。您有责任确保inferenceId在地面真相记录匹配inferenceId在捕获的记录中。如果inferenceId不存在于捕获的数据中,模型监视器使用eventId从捕获的数据记录中进行匹配,以便将其与地面真相记录进行匹配。

您必须将地面真实数据上传到与捕获数据具有相同路径格式的 Amazon S3 存储桶,其形式如下:

s3://bucket/prefixyyyy/mm/dd/hh

此路径中的日期是收集地面真相标签的日期,不必与生成推断的日期相匹配。

创建并上载地面真值标注后,在创建监视作业时,将标注的位置作为参数包括在内。如果您正在使用Amazon SDK for Python (Boto3),请将地面真相标注的位置指定为S3Uri字段中的GroundTruthS3Input参数调用create_model_quality_job_definition方法。如果您使用的是 SageMaker Python SDK,请将地面真值标签的位置指定为ground_truth_input参数调用中的create_monitoring_scheduleModelQualityMonitor对象。