本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
摄取 Ground Truth 标签并将其与预测合并
模型质量监控将模型的预测与地面真相标签进行比较,以衡量模型的质量。为此,您需要定期为终端节点捕获的数据添加标签并将其上传到 Amazon S3。
要将地面真相标签与捕获的预测数据匹配,数据集中的每条记录都必须有唯一的标识符。地面真相数据的每个记录的结构如下所示:
{ "groundTruthData": { "data": "1", "encoding": "CSV" # only CSV supported at launch, we assume "data" only consists of label }, "eventMetadata": { "eventId": "aaaa-bbbb-cccc" }, "eventVersion": "0" }
在groundTruthData
结构,eventId
的值可以是以下值之一:
-
eventId
— 此 ID 在用户调用终端节点时触发终端节点。 -
inferenceId
— 呼叫者在调用终端节点时提供此 ID。
如果inferenceId
存在于捕获的数据记录中,模型监视器使用它将捕获的数据与地面真相记录合并。你有责任确保inferenceId
在地面真相记录中匹配inferenceId
在捕获的记录中。如果inferenceId
在捕获的数据中不存在,模型监视器使用eventId
从捕获的数据记录中把它们与地面真相记录相匹配。
您必须将基本真实数据上传到与捕获数据具有相同路径格式的 Amazon S3 存储桶,该存储桶的格式如下:
s3://
bucket
/prefix
yyyy
/mm
/dd
/hh
此路径中的日期是收集地面真相标签的日期,不必与生成推理的日期相匹配。
创建并上传地面真相标签后,在创建监控作业时将标签的位置作为参数包括在内。如果您将Amazon SDK for Python (Boto3)通过将地面真相标签的位置指定为S3Uri
字段中的字段GroundTruthS3Input
调用中的参数create_model_quality_job_definition
方法。如果您使用的是 SageMaker Python SDK,请将实际情况标签的位置指定为ground_truth_input
调用中的参数create_monitoring_schedule
的ModelQualityMonitor
对象。