本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在控制台中使用 A SageMaker mazon Feature Store
重要
允许 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 创建亚马逊 SageMaker资源的自定义IAM策略还必须授予向这些资源添加标签的权限。需要向资源添加标签的权限,因为 Studio 和 Studio Classic 会自动标记他们创建的任何资源。如果IAM策略允许 Studio 和 Studio Classic 创建资源但不允许标记,则在尝试创建资源时可能会出现 AccessDenied “” 错误。有关更多信息,请参阅 提供标记 SageMaker资源的权限。
Amazon Amazon 托管政策 SageMaker授予创建 SageMaker 资源的权限已经包括在创建这些资源时添加标签的权限。
您可以在控制台上使用 Amazon F SageMaker eature Store 创建、查看、更新和监控您的功能组。本指南中的监控包括查看您的功能组的管道执行和血统。本指南提供了有关如何通过控制台完成这些任务的说明。
有关使用 Amazon 和的功能商店示例 SageMaker APIs和资源 Amazon SDK for Python (Boto3),请参阅Amazon SageMaker 功能商店资源。
从控制台创建功能组
创建特征组的过程分为四个步骤:
-
输入特征组信息。
-
输入特征定义。
-
输入所需的特征。
-
输入特征组标签。
考虑以下哪个选项适合您的用例:
-
创建在线存储和/或离线存储。有关线上商店和线下商店之间区别的更多信息,请参阅Feature Store 概念。
-
使用默认密 Amazon Key Management Service 钥或您自己的KMS密钥。默认密钥为Amazon KMS 密钥 (SSE-KMS)。您可以通过在离线商店 Amazon S3 存储桶上配置 Amazon S3 存储桶密钥的使用来降低 Amazon KMS 请求成本。在将存储桶用于功能组之前,必须启用 Amazon S3 存储桶密钥。有关使用 Amazon S3 存储桶密钥降低成本的更多信息,请参阅使用 Amazon S3 存储桶密钥降低成本。SSE KMS
您可以为在线和离线存储使用相同的密钥,也可以为每个存储使用唯一的密钥。有关的更多信息 Amazon KMS,请参阅Amazon Key Management Service。
-
如果创建离线存储:
-
决定是要创建 Amazon S3 存储桶,还是使用现有存储桶。使用现有存储桶时,必须知道 Amazon S3 存储桶URL或 Amazon S3 存储桶名称和数据集目录名称(如果适用)。
-
选择使用哪个 Amazon 资源名称 (ARN) 来指定IAM角色。有关如何查找您的角色和附加策略的更多信息,请参阅向您的IAM角色添加策略。
-
决定是使用 Amazon Glue (默认)还是 Apache Iceberg 表格格式。在大多数用例中,您使用 Apache Iceberg 表格格式。有关表格格式的更多信息,请参见将 Feature Store 与 SDK Python 配合使用 (Boto3)。
-
您可以使用控制台查看功能组的血统。在主机上使用 Feature Store 的说明会有所不同,具体取决于您是启用亚马逊 SageMaker Studio还是亚马逊 SageMaker Studio 经典版作为默认体验。
-
按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio。
-
从左侧导航窗格中选择 “数据” 以展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
选择创建特征组。
-
在特征组详细信息下,输入特征组名称。
-
(可选)输入特征组的描述。
-
在 “功能组存储配置” 下,从下拉列表中选择存储配置。有关存储配置的信息,请参见Feature Store 存储配置。
-
如果您选择启用在线存储:
-
如果仅启用在线存储,则可以从下拉列表中选择存储类型。有关在线商店存储类型的信息,请参阅在线存储。
-
(可选 TTL)通过将开关切换到 “开” 并指定 “上线时间” 持续时间值和单位,将 Time to Live () 应用于直播时间 ()。创建要素组后,这将更新添加到要素组的所有记录的默认TTL持续时间。有关的更多信息TTL,请参阅记录的生存时间 (TTL) 持续时间。
-
-
如果您选择启用离线存储:
-
在 Amazon S3 存储桶名称下,输入新的存储桶名称或手动输入现有存储桶URL。
-
从表格格式下拉列表中,选择表格格式。在大多数用例中,你应该使用 Apache Iceberg 表格格式。有关表格格式的更多信息,请参见将 Feature Store 与 SDK Python 配合使用 (Boto3)。
-
在IAM角色下ARN,选择ARN要附加到此功能组的IAM角色。有关如何查找您的角色和附加策略的更多信息,请参阅向您的IAM角色添加策略。
-
如果您已选择启用脱机存储表格式和 Amazon Glue (默认)表格格式,则可以在数据目录下选择以下两个选项之一:
-
使用您的默认值 Amazon Glue Data Catalog。
-
提供现有的数据目录名称、表名和数据库名称以扩展现有的数据目录名称 Amazon Glue Data Catalog。
-
-
-
在在线商店加密密钥或离线商店加密密钥下拉列表下,选择以下选项之一:
-
使用 Amazon 托管 Amazon KMS key (默认)
-
输入 Amazon KMS key ARN并在 “离线商店加密 Amazon KMS 密钥ARN” 下输入您的密钥ARN。有关的更多信息 Amazon KMS,请参阅Amazon 密钥管理服务。
-
-
如果适用,您可以选择吞吐量模式,这会影响您的计费方式。在吞吐量模式下,从下拉列表中选择一种模式,并在可用时输入读取和写入容量。有关吞吐量模式(例如何时可以应用该模式和容量单位)的信息,请参阅吞吐量模式。
-
指定所有必填信息后,“继续” 按钮显示为可用。选择继续。
-
在 “指定要素定义” 下,有两个选项可以为要素提供架构:JSON编辑器或表格编辑器。
-
JSON编辑器:在JSON选项卡中,按JSON格式输入或复制并粘贴您的要素定义。
-
表格编辑器:在表选项卡中,输入要素要素名称,然后为要素组中的每个要素选择相应的数据类型。选择 + 添加特征定义可以包含更多特征。请注意,您无法从要素组中移除特征定义。但是,您可以在创建要素组后添加和更新要素定义。
要素组中必须至少有两个代表记录标识符和事件时间的要素:
-
记录要素类型可以是字符串、分数或整数。
-
事件时间要素类型必须是字符串或小数。但是,如果你选择了 Iceberg 表格格式,事件时间必须是字符串。
-
-
包含所有功能后,选择 “继续”。
-
在 “选择所需要素” 下,必须指定记录标识符和事件时间要素。要执行此操作,请分别在 “记录标识符功能名称” 和 “事件时间功能名称” 下拉列表下选择功能名称。
-
选择记录标识符和事件时间功能后,选择继续。
-
(可选)要为功能组添加标签,请选择添加新标签。然后分别在 “密钥” 和 “值” 下输入标签密钥和相应的值。
-
选择继续。
-
在查看特征组下,查看特征组信息。要编辑任何步骤,请选择与该步骤对应的 “编辑” 按钮。这会跳转到相应的编辑步骤。要返回步骤 5,请选择继续,直到返回步骤 5。
-
完成功能组的设置后,选择创建功能组。
如果在安装过程中出现问题,则会在页面底部弹出一条警报消息,其中包含解决问题的提示。对于存在冲突的步骤,选择 “编辑”,可以返回到之前的步骤来修复问题。
成功创建功能组后,页面底部会显示一条绿色的弹出消息。新功能组还会出现在您的功能组目录中。
从控制台查看功能组详细信息
在功能商店中成功创建功能组后,您可以查看功能组的详细信息。
您可以使用控制台或 Amazon Feat SageMaker ure Store API 查看您的功能组详情。通过控制台使用 Feature Store 的说明取决于您是否已启用亚马逊 SageMaker Studio或亚马逊 SageMaker Studio 经典版将其作为默认体验。
-
按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio。
-
在左侧导航窗格中选择 “数据”,展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
(可选)要查看您的功能组,请选择我的帐户。要查看共享功能组,请选择跨账户。
-
在特征组目录选项卡下,从列表中选择您的特征组名称。此时会打开特征组页面。
-
在特征选项卡上,您可以找到一个包含所有特征的列表。使用筛选条件来优化您的列表。选择一个特征以查看其详细信息。
-
在详细信息选项卡和信息子选项卡下,您可以查看您的功能组信息。这包括最新执行、离线存储设置、在线存储设置等。
-
在详细信息选项卡和标签子选项卡下,您可以查看您的功能组标签。选择添加新标签以添加新标签,或选择删除以删除标签。
-
在 “管道执行” 选项卡下,您可以查看功能组的关联管道或管道执行。
-
在 “世系” 选项卡下,您可以查看要素组的血统。
从控制台更新功能组
在功能商店中成功创建功能组后,您可以更新功能组。
您可以使用控制台或 Amazon F SageMaker eature Stor API e 更新功能组。通过控制台使用 Feature Store 的说明取决于您是否已启用亚马逊 SageMaker Studio或亚马逊 SageMaker Studio 经典版将其作为默认体验。
-
按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio。
-
在左侧导航窗格中选择 “数据”,展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
(可选)要查看您的功能组,请选择我的帐户。要查看共享功能组,请选择跨账户。
-
在特征组目录选项卡下,从列表中搜索并选择您的特征组名称。此时会打开特征组页面。
-
选择更新特征组。
-
(可选)如果适用,您可以更改吞吐量模式,这会影响您的计费方式。在吞吐量模式下,从下拉列表中选择一种模式,并在可用时输入读取和写入容量。有关吞吐量模式(例如何时可以应用该模式和容量单位)的信息,请参阅吞吐量模式。
-
(可选)如果您的功能组使用在线商店,则可以更新默认的 T ime to Live (TTL)。如果TTL尚未为该功能组启用,请将上线时间 (TTL) 下的切换按钮切换为开启。您可以在 “生存时间” 下指定TTL值和单位。更新要素组后,这将更新添加到要素组的所有记录的默认TTL持续时间。
-
(可选)您可以向特征组添加特征定义,但请注意,无法从特征组中删除特征定义。要添加特征定义,请选择 + 添加特征定义,然后在 “名称” 列下指定新的特征定义名称,然后在 “特征类型” 列下选择要素类型。
-
选择 Save changes(保存更改)。
-
要确认您的更改,请选择确认。
从控制台查看管道执行情况
您可以在 Pipeline 执行下查看功能或功能组的最新管道执行信息。您还可以获取指向管道、执行、代码和其他有用的执行信息的链接。
您可以使用控制台查看您的管道执行情况。通过控制台使用 Feature Store 的说明取决于您是否已启用亚马逊 SageMaker Studio或亚马逊 SageMaker Studio 经典版将其作为默认体验。
-
按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio。
-
在左侧导航窗格中选择 “数据”,展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
(可选)要查看您的功能组,请选择我的帐户。要查看共享功能组,请选择跨账户。
-
选择功能组或功能以查看其管道执行情况。
-
选择管道执行选项卡。
-
从选择管道下拉列表中搜索管道。
-
您可以查看管道、执行和代码详细信息的链接。您还可以查看执行所有者、状态、日期和持续时间。
从控制台查看血统
您可以查看特征组的世系。世系包括有关特征处理工作流的执行代码、使用的数据源以及将它们摄取到特征组或特征的方式的信息。
您可以使用控制台查看功能组的血统。通过控制台使用 Feature Store 的说明取决于您是否已启用亚马逊 SageMaker Studio或亚马逊 SageMaker Studio 经典版将其作为默认体验。
-
按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio。
-
从左侧导航窗格中选择 “数据” 以展开下拉列表。
-
从下拉列表中,选择 Feature Store。
-
(可选)要查看您的功能组,请选择我的帐户。要查看共享功能组,请选择跨账户。
-
选择要素组或功能以查看其谱系详细信息。
-
选择世系选项卡。
-
选择要展开节点的特征组或管道节点。这包含有关特征组或管道的更多信息。
-
您可以使用屏幕左下角的按钮放大、缩小或重新居中世系图。
-
当你选择并拖动屏幕时,你可以在世系地图中移动。要使用节点作为焦点移动血统地图,可以按 Ta b 或 Shift+T ab 在节点之间切换。
-
如果适用,您可以浏览上游(左、前)或下游(右,最近)的世系。为此,请选择一个节点,然后选择 “查询上游世系” 或 “查询下游血统”。