将 Amazon SageMaker Feature Store 与 Amazon SageMaker Studio 配合使用
您可以使用 Amazon SageMaker Studio 创建特征组并查看有关特征组的详细信息。
在 Studio 中创建特征组
创建特征组的过程分为四个步骤:
-
输入特征组信息。
-
输入特征定义。
-
输入所需的特征。
-
输入特征组标签。
请考虑以下哪个选项最适合您的使用案例:
-
创建在线存储和/或离线存储。有关在线存储和离线存储之间区别的更多信息,请参阅 Feature Store 概念。
-
请使用默认 Amazon Key Management Service 密钥或您自己的 KMS 密钥。默认密钥是 Amazon KMS 密钥 (SSE-KMS)。可以通过在离线存储 Amazon S3 存储桶上配置 Amazon S3 存储桶密钥的使用来降低 Amazon KMS 请求成本。需要启用 Amazon S3 存储桶密钥,才能将存储桶用于特征组。有关使用 Amazon S3 存储桶密钥降低成本的更多信息,请参阅使用 Amazon S3 存储桶密钥降低 SSE-KMS 的成本。
您可以为在线和离线存储使用相同的密钥,也可以为每个存储使用唯一的密钥。有关 Amazon KMS 的更多信息,请参阅 Amazon Key Management Service。
-
如果创建离线存储:
-
决定是要创建 Amazon S3 存储桶,还是使用现有存储桶。使用现有存储桶时,您需要知道 Amazon S3 存储桶 URL 或 Amazon S3 存储桶名称和数据集目录名称(如果适用)。
-
选择要使用的 IAM 角色 ARN。有关如何查找您的角色和附加策略的更多信息,请参阅向您的 IAM 角色添加策略。
-
决定是使用 Amazon Glue(默认)还是 Apache Iceberg 表格式。在大多数使用案例中,您使用 Apache Iceberg 表格式。有关表格式的更多信息,请参阅将 Feature Store 与 SDK for Python (Boto3) 结合使用。
-
使用 Studio 创建特征组的步骤
-
打开 Studio。有关更多信息,请参阅启动 Amazon SageMaker Studio。
-
选择左侧面板上的主页图标 ( )。
-
选择数据。
-
从下拉列表中,选择 Feature Store。
-
选择创建特征组。
-
在特征组详细信息下,输入特征组名称。
-
(可选)输入特征组的描述。
-
在特征组存储配置下,从存储类型下拉列表中选择一种存储类型。
如果选择离线存储:
-
从 Amazon S3 存储桶名称下拉列表中,选择现有 Amazon S3 存储桶名称,输入新的存储桶名称,或者选择手动输入存储桶 URL,然后在 Amazon S3 存储桶地址下输入 URL。
-
(可选)如果您为数据集指定了目录名称,请从数据集目录名称下拉列表中进行选择。
-
从表格格式下拉列表中,选择表格格式。在大多数使用案例中,您应该使用 Apache Iceberg 表格式。有关表格式的更多信息,请参阅将 Feature Store 与 SDK for Python (Boto3) 结合使用。
-
在 IAM 角色 ARN 下,选择要附加到此特征组的 IAM 角色 ARN。有关如何查找您的角色和附加策略的更多信息,请参阅向您的 IAM 角色添加策略。
-
-
在在线存储加密密钥或离线存储加密密钥下拉列表下,选择使用 Amazon 托管 Amazon KMS 密钥(默认) 或输入 Amazon KMS 密钥 ARN,然后在离线存储加密密钥 ARN 下输入您的 Amazon KMS 密钥 ARN。有关 Amazon KMS 的更多信息,请参阅 Amazon Key Management Service。
-
(可选)如果选择了在线存储存储类型,可以通过将开关切换到开并指定生存时间持续时间值和单位来选择应用生存时间 (TTL)。这将在创建特征组后 更新添加到特征组的所有记录的默认 TTL 持续时间。
-
如果选择了离线存储表格格式和 Amazon Glue(默认)表格格式,则可以在数据目录下选择使用 Amazon Glue 数据目录的默认值,或者提供现有的数据目录名称、表名和数据库名称来扩展现有 Amazon Glue 目录。
-
指定所有必填信息后,继续按钮便可用。选择 Continue(继续)。
-
在指定特征定义下,有两个选项可以为特征提供架构,一个是 JSON 编辑器,另一个是表格编辑器。在 JSON 选项卡中,以 JSON 格式键入或复制并粘贴您的特征定义。对于表格编辑器,键入名称并为特征组中的每个特征选择相应的数据类型。选择 + 添加特征定义可以包含更多特征。请注意,无法从特征组中删除特征定义,但可以在创建特征组后添加和更新特征定义。
特征组中必须至少有两个代表记录标识符和事件时间的特征:
-
记录类型可以是字符串、小数或整数。
-
事件时间类型必须是字符串或小数。但如果您选择 Iceberg 表格式,则事件时间必须是字符串。
-
-
包括所有特征后,请选择继续。
-
在选择必需特征下,必须分别在记录标识符特征名称和事件时间特征名称下拉列表中选择特征名称,从而指定记录标识符和事件时间特征。
-
选择记录标识符和事件时间特征后,请选择继续。
-
(可选)为特征组添加标签,方法是先选择添加新标签,然后分别在键和值下输入标签键和相应的值。
-
选择 Continue(继续)。
-
在查看特征组下,查看特征组信息。您可以编辑任何步骤,方法是选择与该步骤对应的编辑按钮。这会跳转到相应的编辑步骤。要返回步骤 5,请选择继续,直到返回步骤 5。
-
完成特征组的设置后,请选择创建特征组。
如果设置出现任何问题,页面底部会显示一条红色警报弹出消息,其中包含解决问题的提示。您可以返回到之前的步骤进行修复。
如果已成功创建特征组,页面底部会显示一条绿色的弹出消息。成功创建特征组后,它会出现在您的特征组目录中。
在 Studio 中查看特征组详细信息
在 Feature Store 中成功创建特征组后,您可以查看特征组的详细信息。
-
打开 Studio。有关更多信息,请参阅 启动 Amazon SageMaker Studio。
-
选择左侧面板上的主页图标 ( )。
-
选择数据。
-
从下拉列表中,选择 Feature Store。
-
在特征组目录选项卡下,从列表中选择您的特征组名称。此时会打开特征组页面。
-
在详细信息选项卡和信息子选项卡下,您可以查看特征组信息,包括但不限于最新执行、离线存储设置和在线存储设置。
-
在详细信息选项卡和标签子选项卡下,您可以查看特征组标签。选择添加新标签以添加新标签,或选择删除以删除标签。
-
在特征选项卡上,您可以找到一个包含所有特征的列表。使用筛选条件来优化您的列表。选择一个特征以查看其详细信息。
在 Studio 中更新特征组
在 Feature Store 中成功创建特征组后,您可以更新特征组。
-
打开 Studio。有关更多信息,请参阅 启动 Amazon SageMaker Studio。
-
选择左侧面板上的主页图标 ( )。
-
选择数据。
-
从下拉列表中,选择 Feature Store。
-
在特征组目录选项卡下,从列表中搜索并选择您的特征组名称。此时会打开特征组页面。
-
选择更新特征组。
-
(可选)如果您的特征组使用在线存储,您可以更新默认的生存时间 (TTL)。如果尚未为该特征组启用 TTL,请将生存时间 (TTL) 下的开关按钮切换为开。您可以在生存时间持续时间下指定 TTL 值和单位。这将在特征组更新后 更新添加到特征组的所有记录的默认 TTL 持续时间。
-
(可选)您可以向特征组添加特征定义,但请注意,无法从特征组中删除特征定义。要添加特征定义,请选择 + 添加特征定义,然后在名称列下指定新的特征定义名称,并在类型列下选择特征类型。
-
选择保存更改。
-
要确认您所做的更改,请选择确认。
在 Studio 中查看管道执行
您可以在管道执行下查看特征或特征组的最新管道执行信息,包括指向管道、执行、代码和其他有用执行信息的快速链接。
-
打开 Studio。有关更多信息,请参阅 启动 Amazon SageMaker Studio。
-
选择左侧面板上的主页图标 ( )。
-
选择数据。
-
从下拉列表中,选择 Feature Store。
-
选择要查看管道执行的特征组或特征。
-
选择管道执行选项卡。
-
从选择管道下拉列表中搜索管道。
-
您可以查看管道、执行和代码详细信息的链接,也可以查看执行所有者、状态、日期和持续时间。
在 Studio 中查看世系
您可以查看特征组的世系。世系包括有关特征处理工作流的执行代码、使用的数据源以及将它们摄取到特征组或特征的方式的信息。
-
打开 Studio。有关更多信息,请参阅 启动 Amazon SageMaker Studio。
-
选择左侧面板上的主页图标 ( )。
-
选择数据。
-
从下拉列表中,选择 Feature Store。
-
选择要查看世系的特征组或特征。
-
选择世系选项卡。
-
选择要展开节点的特征组或管道节点。这包含有关特征组或管道的更多信息。
-
您可以使用屏幕左下角的按钮放大、缩小或重新居中世系图。
-
按下 Tab 或 Shift+Tab 在节点之间切换、选择节点或选择并拖动屏幕时,可以在世系地图中导航。
-
如果适用,您可以通过选择一个节点,然后选择查询上游世系或查询下游世系来浏览世系上游(左,较早)或下游(右,最近)。