本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Studio 中设置 Slurm 集群
以下说明描述了如何在 Studio 中设置 HyperPod Slurm 集群。
-
创建一个域,或准备好一个已有的域。有关创建域的信息,请参阅 亚马逊 A SageMaker I 入门指南。
-
(可选)创建自定义 FSx 的 Lustre 卷并将其附加到您的域中。
-
确保您的 FSx Lustre 文件系统与您的目标域位于同一 VPC 中,并且位于域中存在的其中一个子网中。
-
您可以按照为域添加自定义文件系统中的说明进行操作。
-
-
(可选)我们建议您向集群添加标签,以确保实现更加顺畅的工作流。有关如何添加标签的信息,请参阅编辑集 SageMaker HyperPod 群使用 SageMaker AI 控制台更新集群。
-
将你的 f FSx or Lustre 文件系统标记到你的 Studio 域中。这将帮助您在启动 Studio 空间时识别该文件系统。为此,请在您的集群中添加以下标签,以使用 FSx 文件系统 ID 对其进行标识。
fs-id标签键 =“
hyperpod-cluster-filesystem”,标签值 =“fs-id”。 -
为 Amazon Managed Grafana 工作区添加标签,使其关联到 Studio 域。这将用于直接在 Studio 中从集群快速链接到 Grafana 工作区。为此,请向集群添加以下标签,以便使用 Grafana 工作区 ID
ws-id标识集群。标签键 =“
grafana-workspace”,标签值 =“ws-id”。
-
-
将以下权限添加到执行角色。
有关 SageMaker AI 执行角色以及如何对其进行编辑的信息,请参阅了解域空间权限和执行角色。
要了解如何将策略附加到 IAM 用户或组,请参阅添加和移除 IAM 身份权限。
-
向此 IAM 角色添加标签,其中标签键为“
SSMSessionRunAs”,标签值为“os user”。此处的os user是您为 Slurm 集群设置的同一用户。使用Amazon Systems Manager代理(SSM 代理)中的运行身份功能,在 IAM 角色或用户级别管理对 SageMaker HyperPod 集群的访问权限。利用这项功能,您可以使用与 IAM 角色或用户关联的操作系统(OS)用户启动每个 SSM 会话。有关如何向执行角色添加标签的信息,请参阅标记 IAM 角色。
-
为 Linux 和 macOS 托管节点启用“运行身份”支持。“运行身份”设置适用于整个账户,并且是所有 SSM 会话成功启动的必要条件。
-
(可选)在 Studio 中限制 Slurm 集群的任务视图。有关 Studio 中的可查看任务的信息,请参阅任务。
在 Amazon SageMaker Studio 中,您可以导航查看集群中的 HyperPod 集群(在 “计算” 下)。
在 Studio 中限制 Slurm 集群的任务视图
您可以限制用户仅查看其有权查看的 Slurm 任务,而无需手动输入命名空间或进行额外的权限检查。该限制基于用户的 IAM 角色应用,可提供简化、安全的用户体验。以下部分介绍如何在 Studio 中限制 Slurm 集群的任务视图。有关 Studio 中的可查看任务的信息,请参阅任务。
默认情况下,所有 Studio 用户都可查看、管理所有 Slurm 集群任务并与之交互。要限制这一点,您可以使用Amazon Systems Manager代理(SSM 代理)中的运行身份功能,在 IAM 角色或用户级别管理对 SageMaker HyperPod 集群的访问权限。
您可以用特定标识符(例如,其用户名或组)标记 IAM 角色来实现此目的。当用户访问 Studio 时,会话管理器会使用“运行身份”功能,以与用户的 IAM 角色标签匹配的特定 Slurm 用户账户来执行命令。可以设置 Slurm 配置以根据用户账户限制任务可见性。在通过“运行身份”功能执行命令时,Studio 用户界面将自动筛选对该特定用户账户可见的任务。设置完成后,每个代入具有指定标识符的角色的用户都将根据 Slurm 配置筛选这些 Slurm 任务。有关如何向执行角色添加标签的信息,请参阅标记 IAM 角色。