在控制台中使用 A SageMaker mazon Feature Store - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在控制台中使用 A SageMaker mazon Feature Store

重要

允许 Amazon SageMaker Studio 或 Amazon SageMaker Studio Classic 创建亚马逊 SageMaker资源的自定义 IAM 策略还必须授予向这些资源添加标签的权限。需要向资源添加标签的权限,因为 Studio 和 Studio Classic 会自动标记他们创建的任何资源。如果 IAM 策略允许 Studio 和 Studio Classic 创建资源但不允许标记,则在尝试创建资源时可能会出现 AccessDenied “” 错误。有关更多信息,请参阅 提供为资源添加标签 SageMaker的权限

Amazon 适用于亚马逊的托管政策 SageMaker授予创建 SageMaker 资源的权限已经包括在创建这些资源时添加标签的权限。

您可以在控制台上使用 Amazon F SageMaker eature Store 创建、查看、更新和监控您的功能组。本指南中的监控包括查看您的功能组的管道执行和血统。本指南提供了有关如何通过控制台完成这些任务的说明。

有关使用 Amazon SageMaker API 的功能商店示例和资源 Amazon SDK for Python (Boto3),请参阅Amazon SageMaker 功能商店资源

从控制台创建功能组

创建特征组的过程分为四个步骤:

  1. 输入特征组信息。

  2. 输入特征定义。

  3. 输入所需的特征。

  4. 输入特征组标签。

考虑以下哪个选项适合您的用例:

  • 创建在线存储和/或离线存储。有关线上商店和线下商店之间区别的更多信息,请参阅Feature Store 概念

  • 使用默认密 Amazon Key Management Service 钥或您自己的 KMS 密钥。默认密钥是 Amazon KMS 密钥 (SSE-KMS)。您可以通过在离线商店 Amazon S3 存储桶上配置 Amazon S3 存储桶密钥的使用来降低 Amazon KMS 请求成本。在将存储桶用于功能组之前,必须启用 Amazon S3 存储桶密钥。有关使用 Amazon S3 存储桶密钥降低成本的更多信息,请参阅使用 Amazon S3 存储桶密钥降低 SSE-KMS 的成本。

    您可以为在线和离线存储使用相同的密钥,也可以为每个存储使用唯一的密钥。有关的更多信息 Amazon KMS,请参阅Amazon Key Management Service

  • 如果创建离线存储:

    • 决定是要创建 Amazon S3 存储桶,还是使用现有存储桶。使用现有存储桶时,必须知道 Amazon S3 存储桶 URL 或 Amazon S3 存储桶名称和数据集目录名称(如果适用)。

    • 选择要使用哪个亚马逊资源名称 (ARN) 来指定 IAM 角色。有关如何查找您的角色和附加策略的更多信息,请参阅向您的 IAM 角色添加策略

    • 决定是使用 Amazon Glue (默认)格式还是Apache Iceberg表格格式。在大多数用例中,您使用Apache Iceberg表格格式。有关表格格式的更多信息,请参见将 Feature Store 与 SDK for Python (Boto3) 结合使用

您可以使用控制台查看功能组的血统。在主机上使用 Feature Store 的说明会有所不同,具体取决于您是启用亚马逊 SageMaker Studio还是亚马逊 SageMaker Studio 经典版作为默认体验。

  1. 按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio

  2. 从左侧导航窗格中选择 “数据” 以展开下拉列表。

  3. 从下拉列表中,选择 Feature Store

  4. 选择创建特征组

  5. 特征组详细信息下,输入特征组名称。

  6. (可选)输入特征组的描述。

  7. 在 “功能组存储配置” 下,从下拉列表中选择存储配置。有关存储配置的信息,请参见Feature Store 存储配置

  8. 如果您选择启用在线存储:

    1. 如果启用在线存储,则可以从下拉列表中选择存储类型。有关在线商店存储类型的信息,请参阅在线存储

    2. (可选)通过将开关切换到 “开” 并指定 “线时间” 持续时间值和单位,应用生存时间 (TTL)。这将在创建特征组后 更新添加到特征组的所有记录的默认 TTL 持续时间。有关 TTL 的更多信息,请参阅记录的生存时间 (TTL) 持续时间

  9. 如果您选择启用离线存储:

    1. Amazon S3 存储桶名称下,输入新的存储桶名称或手动输入现有存储桶 URL。

    2. 表格格式下拉列表中,选择表格格式。在大多数用例中,应使用Apache Iceberg表格格式。有关表格格式的更多信息,请参见将 Feature Store 与 SDK for Python (Boto3) 结合使用

    3. IAM 角色 ARN 下,选择要附加到此特征组的 IAM 角色 ARN。有关如何查找您的角色和附加策略的更多信息,请参阅向您的 IAM 角色添加策略

    4. 如果您已选择启用脱机存储表格式和 Amazon Glue (默认)表格格式,则可以在数据目录下选择以下两个选项之一:

      • 使用您的默认值 Amazon Glue Data Catalog

      • 提供现有的数据目录名称、表名和数据库名称以扩展现有的数据目录名称 Amazon Glue Data Catalog。

  10. 在线商店加密密钥离线商店加密密钥下拉列表下,选择以下选项之一:

    • 使用 Amazon 托管 Amazon KMS key (默认)

    • 输入 Amazon KMS key ARN 并在离线商店加密密钥 Amazon KMS ARN 下输入您的密钥 ARN。有关的更多信息 Amazon KMS,请参阅Amazon 密钥管理服务

  11. 如果适用,您可以选择吞吐量模式,这会影响您的收费方式。在吞吐量模式下,从下拉列表中选择一种模式,并在可用时输入读取和写入容量。有关吞吐量模式(例如何时可以应用该模式和容量单位)的信息,请参阅吞吐量模式

  12. 指定所有必填信息后,“继续” 按钮显示为可用。选择继续

  13. 指定特征定义下,有两个选项可以为特征提供架构,一个是 JSON 编辑器,另一个是表格编辑器。

    • JSON 编辑器:在 JSON 选项卡中,以 JSON 格式输入或复制并粘贴您的要素定义。

    • 表格编辑器:在选项卡中,输入要素要素名称,然后为要素组中的每个要素选择相应的数据类型。选择 + 添加特征定义可以包含更多特征。请注意,您无法从要素组中移除特征定义。但是,您可以在创建要素组后添加和更新要素定义。

    要素组中必须至少有两个代表记录标识符和事件时间的要素:

    • 记录要素类型可以是字符串、分数或整数。

    • 事件时间要素类型必须是字符串或小数。但是,如果您选择Iceberg表格格式,则事件时间必须为字符串。

  14. 包含所有功能后,选择 “继续”。

  15. “选择所需要素” 下,必须指定记录标识符和事件时间要素。要执行此操作,请分别在 “记录标识符功能名称” 和 “事件时间功能名称” 下拉列表下选择功能名称。

  16. 选择记录标识符和事件时间功能后,选择继续

  17. (可选)要为功能组添加标签,请选择添加新标签。然后分别在 “密钥” 和 “值” 下输入标签密钥和相应的

  18. 选择继续

  19. 查看特征组下,查看特征组信息。要编辑任何步骤,请选择与该步骤对应的 “编辑” 按钮。这会跳转到相应的编辑步骤。要返回步骤 5,请选择继续,直到返回步骤 5。

  20. 完成功能组的设置后,选择创建功能组

    如果在安装过程中出现问题,则会在页面底部弹出一条警报消息,其中包含解决问题的提示。对于存在冲突的步骤,选择 “编辑”,可以返回到之前的步骤来修复问题。

    成功创建功能组后,页面底部会显示一条绿色的弹出消息。新功能组还会出现在您的要素组目录中。

从控制台查看功能组详细信息

在功能商店中成功创建功能组后,您可以查看功能组的详细信息。

您可以使用控制台或 Amazon Feat SageMaker ure Store API 来查看您的功能组详情。通过控制台使用 Feature Store 的说明取决于您是否已启用亚马逊 SageMaker Studio亚马逊 SageMaker Studio 经典版将其作为默认体验。

  1. 按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio

  2. 在左侧导航窗格中选择 “数据”,展开下拉列表。

  3. 从下拉列表中,选择 Feature Store

  4. (可选)要查看您的功能组,请选择我的帐户。要查看共享功能组,请选择跨账户

  5. 特征组目录选项卡下,从列表中选择您的特征组名称。此时会打开特征组页面。

  6. 特征选项卡上,您可以找到一个包含所有特征的列表。使用筛选条件来优化您的列表。选择一个特征以查看其详细信息。

  7. 详细信息选项卡和信息子选项卡下,您可以查看您的功能组信息。这包括最新执行离线存储设置在线存储设置等。

  8. 详细信息选项卡和标签子选项卡下,您可以查看您的功能组标签。选择添加新标签以添加新标签,或选择删除以删除标签。

  9. 管道执行选项卡下,您可以查看功能组的相关管道或管道执行。

  10. 在 “世系” 选项卡下,您可以查看要素组的血统。

从控制台更新功能组

在功能商店中成功创建功能组后,您可以更新功能组。

您可以使用控制台或 Amazon Feat SageMaker ure Store API 来更新功能组。通过控制台使用 Feature Store 的说明取决于您是否已启用亚马逊 SageMaker Studio亚马逊 SageMaker Studio 经典版将其作为默认体验。

  1. 按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio

  2. 在左侧导航窗格中选择 “数据”,展开下拉列表。

  3. 从下拉列表中,选择 Feature Store

  4. (可选)要查看您的功能组,请选择我的帐户。要查看共享功能组,请选择跨账户

  5. 特征组目录选项卡下,从列表中搜索并选择您的特征组名称。此时会打开特征组页面。

  6. 选择更新特征组

  7. (可选)如果适用,您可以更改吞吐量模式,这会影响您的计费方式。在吞吐量模式下,从下拉列表中选择一种模式,并在可用时输入读取和写入容量。有关吞吐量模式(例如何时可以应用该模式和容量单位)的信息,请参阅吞吐量模式

  8. (可选)如果您的特征组使用在线存储,您可以更新默认的生存时间 (TTL)。如果尚未为该特征组启用 TTL,请将生存时间 (TTL) 下的开关按钮切换为。您可以在生存时间持续时间下指定 TTL 值和单位。这将在特征组更新后 更新添加到特征组的所有记录的默认 TTL 持续时间。

  9. (可选)您可以向特征组添加特征定义,但请注意,无法从特征组中删除特征定义。要添加特征定义,请选择 + 添加特征定义,然后在 “名称” 列下指定新的特征定义名称,然后在 “特征类型” 列下选择要素类型

  10. 选择保存更改

  11. 要确认您的更改,请选择确认

从控制台查看管道执行情况

您可以在 Pipeline 执行下查看功能或功能组的最新管道执行信息。您还可以获取指向管道、执行、代码和其他有用的执行信息的链接。

您可以使用控制台查看您的管道执行情况。通过控制台使用 Feature Store 的说明取决于您是否已启用亚马逊 SageMaker Studio亚马逊 SageMaker Studio 经典版将其作为默认体验。

  1. 按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio

  2. 在左侧导航窗格中选择 “数据”,展开下拉列表。

  3. 从下拉列表中,选择 Feature Store

  4. (可选)要查看您的功能组,请选择我的帐户。要查看共享功能组,请选择跨账户

  5. 选择功能组或功能以查看其管道执行情况。

  6. 选择管道执行选项卡。

  7. 选择管道下拉列表中搜索管道。

  8. 您可以查看管道、执行和代码详细信息的链接。您还可以查看执行所有者、状态、日期和持续时间。

从控制台查看血统

您可以查看特征组的世系。世系包括有关特征处理工作流的执行代码、使用的数据源以及将它们摄取到特征组或特征的方式的信息。

您可以使用控制台查看功能组的血统。通过控制台使用 Feature Store 的说明取决于您是否已启用亚马逊 SageMaker Studio亚马逊 SageMaker Studio 经典版将其作为默认体验。

  1. 按照中的说明打开 Studio 控制台启动亚马逊 SageMaker Studio

  2. 从左侧导航窗格中选择 “数据” 以展开下拉列表。

  3. 从下拉列表中,选择 Feature Store

  4. (可选)要查看您的功能组,请选择我的帐户。要查看共享功能组,请选择跨账户

  5. 选择要素组或功能以查看其谱系详细信息。

  6. 选择世系选项卡。

  7. 选择要展开节点的特征组或管道节点。这包含有关特征组或管道的更多信息。

  8. 您可以使用屏幕左下角的按钮放大、缩小或重新居中世系图。

  9. 当你选择并拖动屏幕时,你可以在世系地图中移动。要使用节点作为焦点移动血统地图,可以按 Ta b 或 Shift+T ab 在节点之间切换。

  10. 如果适用,您可以浏览上游(左、前)或下游(右,最近)的世系。为此,请选择一个节点,然后选择 “查询上游世系” 或 “查询下游世系”。