数据源和摄取 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

数据源和摄取

通过摄取将记录添加到特征组。根据所需的使用案例,摄取的记录可以保留在特征组中,也可以不保留在特征组中。这取决于存储配置,即您的特征组是使用离线存储还是在线存储。离线存储用作历史数据库,通常用于数据探索、机器学习 (ML) 模型训练和批量推理。在线存储支持实时查找记录,通常用于机器学习模型处理。有关 Feature Store 概念和摄取的更多信息,请参阅 Feature Store 概念

可通过多种方式将数据导入 Amazon SageMaker Feature Store。Feature Store 为数据摄取提供名为 PutRecord 的单个 API 调用,该调用使您可以批量或从流式传输源摄取数据。您可以使用 Amazon SageMaker Data Wrangler 来设计特征,然后将特征摄取到您的 Feature Store 中。也可以使用 Amazon EMR 通过 Spark 连接器进行批量数据摄取。

在以下主题中,我们将讨论两者的区别

流摄取

您可以使用 Kafka 或 Kinesis 等流式传输源作为数据源,从中提取记录,并将记录直接馈送到在线存储以用于训练、推理或特征创建。可以使用同步 PutRecord API 调用将记录摄取到您的特征组中。由于这是同步 API 调用,因此可以在一次 API 调用中推送小批量更新。这样就能保持特征值的高新鲜度,并在检测到更新时立即发布值。这些也称为流式处理特征。

带 Feature Store 的 Data Wrangler

Data Wrangler 是 Studio 的一项特征,提供端到端解决方案,用于导入、准备、转换、特征化和分析数据。利用 Data Wrangler,您可以设计自己的特征并将其摄取到您的在线或离线存储特征组中。

在 Studio 中使用 Data Wrangler 后,请依次选择导出选项卡、导出步骤Feature Store,如以下屏幕截图所示。这将导出一个 Jupyter 笔记本,其中包含创建 Feature Store 特征组所需的所有源代码,该特征组可将您的特征从 Data Wrangler 添加到在线或离线存储。

创建特征组后,您还可以选择并联接多个特征组中的数据以在 Data Wrangler 中创建新的工程特征,然后将数据集导出到 Amazon S3 存储桶。

有关如何导出到 Feature Store 的更多信息,请参阅导出到 SageMaker Feature Store