

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 数据源和摄取
<a name="feature-store-ingest-data"></a>

通过摄取将记录添加到特征组。根据所需的使用案例，摄取的记录可以保留在特征组中，也可以不保留在特征组中。这取决于存储配置，即您的特征组是使用离线存储还是在线存储。离线存储用作历史数据库，通常用于数据探索、机器学习 (ML) 模型训练和批量推理。在线存储支持实时查找记录，通常用于机器学习模型处理。有关 Feature Store 概念和摄取的更多信息，请参阅 [Feature Store 概念](feature-store-concepts.md)。

您可以通过多种方式将您的数据导入 Amazon Feature SageMaker Store。Feature Store 为数据摄取提供名为 `PutRecord` 的单个 API 调用，该调用使您可以批量或从流式传输源摄取数据。您可以使用 Amazon SageMaker Data Wrangler 来设计功能，然后将您的功能提取到功能商店中。也可以使用 Amazon EMR 通过 Spark 连接器进行批量数据摄取。

在以下主题中，我们将讨论两者的区别 

**Topics**
+ [流摄取](#feature-store-ingest-data-stream)
+ [带 Feature Store 的 Data Wrangler](#feature-store-data-wrangler-integration)
+ [使用亚马逊 Feature Store 批量摄取 Sp SageMaker ark](batch-ingestion-spark-connector-setup.md)

## 流摄取
<a name="feature-store-ingest-data-stream"></a>

您可以使用 Kafka 或 Kinesis 等流式传输源作为数据源，从中提取记录，并将记录直接馈送到在线存储以用于训练、推理或特征创建。可以使用同步 `PutRecord` API 调用将记录摄取到您的特征组中。由于这是同步 API 调用，因此可以在一次 API 调用中推送小批量更新。这样就能保持特征值的高新鲜度，并在检测到更新时立即发布值。这些也称为*流式处理*特征。

## 带 Feature Store 的 Data Wrangler
<a name="feature-store-data-wrangler-integration"></a>

Data Wrangler 是 Studio Classic 的一项功能，它提供了导入、准备、转换、特征化和分析数据的 end-to-end解决方案。利用 Data Wrangler，您可以设计自己的特征并将其摄取到您的在线或离线存储特征组中。

下面的说明导出了一个 Jupyter Notebook，其中包含创建特征存放区特征组所需的全部源代码，该特征组可将您的功能从 Data Wrangler 添加到在线或离线存储。

在管理控制台上将 Data Wrangler 数据流导出到特征存放区的说明因启用 [亚马逊 SageMaker Studio](studio-updated.md) 还是 [亚马逊 SageMaker Studio 经典版](studio.md) 作为默认体验而异。

### 如果 Studio 是您的默认体验（管理控制台），将您的 Data Wrangler 数据流导出到特征存放区
<a name="feature-store-ingest-data-wrangler-integration-with-studio-updated"></a>

1. 按照 [启动亚马逊 SageMaker Studio](studio-updated-launch.md) 中的说明打开 Studio 管理控制台。

1. 从左侧面板选择**数据**，展开下拉列表。

1. 从下拉列表中选择 **Data Wrangler**。

1. 如果您已经运行了 Amazon SageMaker Canvas 实例，请选择 “**打开画布**”。

   如果您没有运行 SageMaker Canvas 实例，请选择 “**在画布中运行**”。

1. 在 SageMaker Canvas 控制台上，选择左侧导航**窗格中的 Data Wrangler**。

1. 选择**数据流**，查看数据流。

1. 选择 **\$1** 扩展下拉列表。

1. 选择**导出数据流**，展开下拉列表。

1. 选择 “**保存到 SageMaker 功能库”（通过 JupyterLab笔记本电脑）**。

1. **在导出数据流为笔记本下**，选择以下选项之一：
   + **下载本地副本**将数据流下载到本地计算机。
   + **导出到 S3 位置**可将数据流下载到 Amazon Simple Storage Service 位置，并输入 Amazon S3 位置，或选择**浏览**查找 Amazon S3 位置。

1. 选择**导出**。

 创建特征组后，您还可以选择并联接多个特征组中的数据以在 Data Wrangler 中创建新的工程特征，然后将数据集导出到 Amazon S3 存储桶。

有关如何导出到功能存储的更多信息，请参阅[导出到 SageMaker AI 功能库](https://docs.amazonaws.cn/sagemaker/latest/dg/data-wrangler-data-export.html#data-wrangler-data-export-feature-store)。