提取 Ground Truth 标签,并将标签与预测合并 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

提取 Ground Truth 标签,并将标签与预测合并

模型质量监控将模型做出的预测与基本实际情况标签进行比较,以衡量模型的质量。为了做到这一点,您定期标记终端节点捕获的数据并将其上传到 Amazon S3。

要将基本实际情况标签与捕获的预测数据匹配,数据集中的每个记录必须具有唯一标识符。基本实际情况数据的每个记录的结构如下所示:

{ "groundTruthData": { "data": "1", "encoding": "CSV" # only CSV supported at launch, we assume "data" only consists of label }, "eventMetadata": { "eventId": "aaaa-bbbb-cccc" }, "eventVersion": "0" }

groundTruthData 结构中, eventId 可以是下列项之一:

  • eventId – 当用户调用终端节点时,将自动生成此 ID。

  • inferenceId – 调用方在调用终端节点时提供此 ID。

如果 inferenceId 存在于捕获的数据记录中, 模型监控器 将使用它来将捕获的数据与基本实际情况记录合并。您有责任确保基本实际情况记录inferenceId中的 与捕获的记录inferenceId中的 匹配。如果捕获的数据中inferenceId不存在 ,模型监控器将使用捕获的数据记录eventId中的 来将其与基本实际情况记录匹配。

您必须将基本实际情况数据上传到与捕获的数据具有相同路径格式的 Amazon S3 存储桶,该格式如下:

s3://bucket/prefixyyyy/mm/dd/hh

此路径中的日期是收集基本实际情况标签的日期,与生成推理的日期不相符。

创建并上传基本实际情况标签后,在创建监控作业时,请将标签的位置作为参数包含在内。如果您使用的是 适用于 Python (Boto3) 的 AWS 软件开发工具包,请通过在对 S3Uri 方法的调用中将基本实际情况标签的位置指定为 GroundTruthS3Input 参数的 create_model_quality_job_definition 字段来执行此操作。如果您使用的是 SageMaker Python 开发工具包,请在对 ground_truth_input 对象的 create_monitoring_schedule 的 的调用中将基本实际情况标签的位置指定为 ModelQualityMonitor 参数。