数据采集 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据采集

要将端点的输入以及已部署模型的推理输出记录到 Amazon S3,可以启用名为数据捕获 的特征。数据捕获 通常用于记录可用于训练、调试和监控的信息。Amazon SageMaker Model Monitor 会自动解析这些捕获的数据,并将这些数据中的指标与您为模型创建的基准进行比较。有关 Model Monitor 的更多信息,请参阅使用 Amazon 模型监视器监控数据和 SageMaker 模型质量

您可以使用 Amazon SDK for Python (Boto) 或 Python SageMaker 为实时和批处理模型监视器模式实现数据捕获。SDK对于实时端点,您将在创建端点时指定数据捕获 配置。由于实时端点具有持久性,您可以配置其他选项,以便在特定时间开启或关闭数据捕获功能,或者更改采样频率。您也可以选择对推理数据进行加密。

对于批量转换作业,如果您要按计划运行模型监控或对常规的定期批量转换作业进行持续模型监控,则可以启用数据捕获。创建批量转换作业时,您将指定数据捕获 配置。在此配置中,您可以选择开启加密功能,或在输出时生成推理 ID,这有助于将捕获的数据与 Ground Truth 数据进行匹配。