数据源和摄取 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

数据源和摄取

通过摄取将记录添加到特征组。根据所需的使用案例,摄取的记录可以保留在特征组中,也可以不保留在特征组中。这取决于存储配置,即您的特征组是使用离线存储还是在线存储。离线存储用作历史数据库,通常用于数据探索、机器学习 (ML) 模型训练和批量推理。在线存储支持实时查找记录,通常用于机器学习模型处理。有关 Feature Store 概念和摄取的更多信息,请参阅 Feature Store 概念

您可以通过多种方式将您的数据导入 Amazon Feature SageMaker Store。Feature Store 为数据摄取提供名为 PutRecord 的单个 API 调用,该调用使您可以批量或从流式传输源摄取数据。您可以使用 Amazon SageMaker Data Wrangler 来设计功能,然后将您的功能提取到功能商店中。也可以使用 Amazon EMR 通过 Spark 连接器进行批量数据摄取。

在以下主题中,我们将讨论两者的区别

流摄取

您可以使用 Kafka 或 Kinesis 等流式传输源作为数据源,从中提取记录,并将记录直接馈送到在线存储以用于训练、推理或特征创建。可以使用同步 PutRecord API 调用将记录摄取到您的特征组中。由于这是同步 API 调用,因此可以在一次 API 调用中推送小批量更新。这样就能保持特征值的高新鲜度,并在检测到更新时立即发布值。这些也称为流式处理特征。

带 Feature Store 的 Data Wrangler

Data Wrangler 是 Studio Classic 的一项功能,它为导入、准备、转换、特征化和分析数据提供了 end-to-end 解决方案。利用 Data Wrangler,您可以设计自己的特征并将其摄取到您的在线或离线存储特征组中。

以下说明导出一个 Jupyter 笔记本,其中包含创建功能库功能组所需的所有源代码,该功能组可将你的功能从 Data Wrangler 添加到在线或离线商店。

在主机上将 Data Wrangler 数据流导出到 Feature Store 的说明会有所不同,具体取决于您是启用亚马逊 SageMaker Studio还是亚马逊 SageMaker Studio 经典版作为默认体验。

  1. 按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio

  2. 从左侧面板中选择 “数据”,展开下拉列表。

  3. 从下拉列表中选择 Data Wrang ler。

  4. 如果您已经运行了 Amazon SageMaker Canvas 实例,请选择 “打开画布”。

    如果您没有运行 SageMaker Canvas 实例,请选择 “在画布中运行”。

  5. 在 SageMaker Canvas 控制台上,选择左侧导航窗格中的 Data Wrangler

  6. 选择数据流以查看您的数据流。

  7. 选择 + 展开下拉列表。

  8. 选择 “导出数据流” 以展开下拉列表。

  9. 选择 “保存到 SageMaker 功能库”(通过 JupyterLab笔记本电脑)

  10. 在 “将数据流导出为笔记本” 下,选择以下选项之一:

    • 下载本地副本,将数据流下载到本地计算机。

    • 导出到 S3 位置,将数据流下载到亚马逊简单存储服务位置,然后输入 Amazon S3 位置或选择 “浏览” 查找您的 Amazon S3 位置。

  11. 选择导出

创建特征组后,您还可以选择并联接多个特征组中的数据以在 Data Wrangler 中创建新的工程特征,然后将数据集导出到 Amazon S3 存储桶。

有关如何导出到功能存储的更多信息,请参阅导出到 SageMaker 功能库