Feature Store 概念 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Feature Store 概念

我们列出了 Amazon Feature SageMaker Store 中使用的常用术语,然后是示例图,以可视化一些概念:

  • Feature Store:机器学习 (ML) 特征的存储和数据管理层。作为存储、检索、删除、跟踪、共享、发现和控制特征访问权限的单一信任源。在下面的示例图中,Feature Store 是您的特征组的存储,其中包含您的机器学习数据,并提供其他服务。

  • 在线存储:低延迟、高可用性存储,适用于支持实时查找记录的特征组。使用在线存储可以通过 GetRecord API 快速访问最新记录。

  • 离线存储:将历史数据存储在您的 Amazon S3 存储桶中。当不需要低(亚秒)延迟读取时,将使用离线存储。例如,当您想要存储和提供用于探索、模型训练和批量推理的特征时,可以使用离线存储。

  • 特征组:Feature Store 的主要资源,包含用于使用机器学习模型进行训练或预测的数据和元数据。特征组是用于描述记录的特征的逻辑分组。在下面的示例图中,特征组包含您的机器学习数据。

  • 特征:一种属性,用作使用机器学习模型进行训练或预测的输入之一。在 Feature Store API 中,特征是记录的一个属性。在下面的示例图中,一个特征描述了机器学习数据表中的一列。

  • 特征定义:由一个名称和一种数据类型(整数、字符串或小数)组成。特征组包含特征定义列表。有关 Feature Store 数据类型的更多信息,请参阅数据类型

  • 记录:单个记录标识符的特征值集合。记录标识符和事件时间值的组合可唯一标识特征组中的记录。在下面的示例图中,记录是机器学习数据表中的一行。

  • 记录标识符名称:记录标识符名称是标识记录的特征的名称。它必须引用特征组的特征定义中定义的特征的名称之一。每个特征组都使用一个记录标识符名称进行定义。

  • 事件时间:您提供的与记录事件发生时间相对应的时间戳。特征组中的所有记录都必须具有相应的事件时间。在线存储仅包含与最新事件时间相对应的记录,而离线存储则包含所有历史记录。有关事件时间格式的更多信息,请参阅数据类型

  • 摄取:向特征组添加新记录。通常通过 PutRecord API 实现摄取。

概念概述图

以下示例图概念化了 Feature Store 的一些概念:

Feature Store 包含您的特征组,而特征组包含您的机器学习数据。在示例图中,原始特征组包含一个数据表,其中包含三个特征(每个特征描述一列)和两条记录(行)。

  • 特征的定义描述了与记录关联的特征值的特征名称和数据类型。

  • 记录包含这些特征值,通过其记录标识符进行唯一标识,并且必须包含事件时间。

摄取示意图

摄取是将一条或多条记录添加到现有特征组的操作。对于不同的存储用例,在线和离线商店的更新方式有所不同。

在线存储摄取示例

在线商店充当记录的实时查询,只保留最多的 up-to-date记录。将记录导入现有在线商店后,更新的在线商店将仅保留最新活动时间的记录。

在下面的示例图中,原始在线商店包含一个带有一条记录的 ML 数据表。采集记录时使用与原始记录相同的记录标识符名称,并且摄取的记录的事件时间早于原始记录。由于更新的在线商店仅保留最新活动时间的记录,因此更新的在线商店包含原始记录。

离线存储摄取示例

离线存储用于查找历史记录,保留所有记录。将新记录摄取到现有离线存储后,更新的离线存储将保留该新记录。

在下图示例中,原始离线商店包含一个带有一条记录的 ML 数据表。采集记录时使用与原始记录相同的记录标识符名称,并且摄取的记录的事件时间早于原始记录。由于更新的离线商店会保留所有记录,因此更新的离线商店包含这两条记录。