数据源和引入 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据源和引入

有多种方法可以将您的数据带入 Amazon SageMaker 功能商店。功能存储提供了一个名为PutRecord,使您能够批量或从流式处理源接收数据。您还可以使用 Amazon SageMaker 数据牧师来设计功能,然后将您的功能引入到您的要素存储中。

流摄取

您可以使用 Kafka 或 Kinesis 等流式处理源作为数据源,从中提取要素并直接输入到在线 feature store 进行培训、推断或创建功能。记录可以通过调用同步PutRecordAPI 调用。由于这是一个同步 API 调用,它允许在单个 API 调用中推送小批量更新。这使您能够保持要素值的高新鲜度,并在检测到更新后立即发布值。这些查询也称为流式处理功能。

具有功能存储的数据牧师

Data Wrangler 是 Studio 的一项功能,它提供了端到端的解决方案,用于导入、准备、转换、特征和分析数据。Data Wrangler 使您能够对要素进行设计并将其引入到 feature store 中。 

在 Studio 中,在与数据工作者进行交互后,选择Export选项卡上,选择导出步骤,然后选择功能存储,如以下屏幕截图所示。这会导出包含所有源代码的 Jupyter 笔记本,以创建要 feature store 组,该功能组将您的功能从 Data Wrangler 添加到离线或在线要素存储。

创建要素组后,您还可以跨多个要素组选择并连接数据,以便在 Data Wrangler 中创建新的工程要素,然后将数据集导出到 S3 存储桶。 

有关如何导出到要素存储的更多信息,请参阅导出到 SageMaker 功能商店.