本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
功能商店概念
我们列出了亚马逊Feature St SageMaker ore中使用的常用术语,然后是示例图以可视化几个概念:
-
功能存储:机器学习 (ML) 功能的存储和数据管理层。用作存储、检索、删除、跟踪、共享、发现和控制功能访问的单一事实来源。在以下示例图中,要素存储是您的要素组的存储,其中包含您的 ML 数据并提供其他服务。
-
在线存储:用于功能组的低延迟、高可用性存储,可实时查找记录。在线商店允许通过
GetRecord
API快速访问最新记录。 -
离线存储:将历史数据存储在您的 Amazon S3 存储桶中。当不需要低(亚秒)延迟读取时,可使用离线存储。例如,当您想要存储和提供用于探索、模型训练和批量推理的功能时,可以使用离线存储。
-
功能组:Feature Store 的主要资源,包含用于使用 ML 模型进行训练或预测的数据和元数据。要素组是用于描述记录的要素的逻辑分组。在以下示例图中,要素组包含您的 ML 数据。
-
特征:一种属性,用作使用 ML 模型进行训练或预测的输入之一。在功能存储 API 中,要素是记录的属性。在以下示例图中,一个功能描述了 ML 数据表中的一列。
-
功能定义:由名称和一种数据类型组成:整数、字符串或分数。功能组包含功能定义列表。有关要素存储数据类型的更多信息,请参阅数据类型。
-
记录:单个记录标识符的要素值的集合。记录标识符和事件时间值的组合可唯一标识要素组中的记录。在以下示例图中,记录是 ML 数据表中的一行。
-
记录标识符名称:记录标识符名称是标识记录的要素的名称。它必须引用在特征组的功能定义中定义的特征名称之一。每个要素组都使用记录标识符名称进行定义。
-
事件时间:您提供的与记录事件发生时间相对应的时间戳。要素组中的所有记录都必须有相应的事件时间。在线商店仅包含与最新事件时间对应的记录,而离线商店包含所有历史记录。有关事件时间格式的更多信息,请参阅数据类型。
-
提取:向要素组添加新记录。摄取通常通过 API 实现。
PutRecord
以下示例图概念化了几个功能存储概念:
功能存储包含您的功能组,功能组包含您的 ML 数据。在示例图中,原始要素组包含 ML 数据(表)包含三个要素(每个要素描述一列)和两个记录(行)。
-
要素(描述一列)由特征定义组成,该特征定义描述了与记录相关的特征值的功能名称和数据类型。
-
记录(行)必须通过其记录标识符(菱形标记)进行唯一标识,并包括记录事件发生时的事件时间(圆形标记)。
摄取是向要素组添加新数据的操作。将记录添加到功能组的方式有所不同,具体取决于您是收录到在线商店还是离线商店。虽然将新数据采集到要素组中,而要素组中尚不存在新的记录标识符,但会为这两个存储添加记录。将数据采集到要素组中时,该要素组中已存在记录标识符:
-
在线商店中仅保留最新的活动时间。
-
所有记录都被保留并用作离线商店中的历史记录。