本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
开始使用 Amazon EKS 支持 SageMaker HyperPod
除了一使用 SageMaker HyperPod 的先决条件般内容外 SageMaker HyperPod,请查看以下使用 Amazon EKS 编排 SageMaker HyperPod 集群的要求和注意事项。
要求
注意
在创建 HyperPod 集群之前,您需要一个正在运行的 Amazon EKS 集群,该集群配置了 VPC 并使用 Helm 进行安装。
-
如果使用 SageMaker AI 控制台,则可以在集群控制台页面中创建 Amazon EKS HyperPod 集群。有关更多信息,请参阅 创建集 SageMaker HyperPod 群。
-
如果使用 Amazon CLI,则应先创建一个 Amazon EKS 集群,然后再创建要关联的 HyperPod 集群。有关详细信息,请参阅《Amazon EKS 用户指南》中的创建 Amazon EKS 集群。
在配置 Amazon EKS 集群时,请考虑以下几点:
-
支持 Kubernetes 版本
-
SageMaker HyperPod 支持 Kubernetes 版本 1.28、1.29、1.30、1.31 和 1.32。
-
-
Amazon EKS 集群验证模式
-
支持的 Amazon EKS 集群的身份验证模式 SageMaker HyperPod 是
API
和API_AND_CONFIG_MAP
。
-
-
联网
-
SageMaker HyperPod 需要亚马逊 VPC 容器网络接口 (CNI) 插件版本 1.18.3 或更高版本。
注意
Amazon 适用于 Kubernetes 的 VPC CNI 插件
是唯一支持的 CNI。 SageMaker HyperPod -
您的 VPC 中的子网类型必须是 HyperPod集群的私有子网。
-
-
IAM 角色
-
确保按照本Amazon Identity and Access Management 对于 SageMaker HyperPod节的指导 HyperPod 为其设置必要的 IAM 角色。
-
-
Amazon EKS 集群插件
-
你可以继续使用亚马逊 EKS 提供的各种插件,例如 Kube-Proxy、Core DNS、亚马逊 VPC 容器网络接口 (CNI) 插件、亚马逊 EKS pod 身份、代理、亚马逊容器存储接口 (CSI) 驱动程序 GuardDuty、适用于亚马逊 S3 CSI 的 Mountpoint 驱动程序、适用于 Amazon S3 CSI Amazon 的发行版和可观察性代理。 FSx OpenTelemetry CloudWatch
-
使用 Amazon EKS 配置 SageMaker HyperPod 集群的注意事项
-
您必须根据节点的类型使用不同的 IAM 角色。对于 HyperPod 节点,请使用基于的角色IAM 角色适用于 SageMaker HyperPod。有关亚马逊 EKS 节点,请参阅亚马逊 EKS 节点 IAM 角色。
-
您不能将额外的 EBS 卷直接挂载到 HyperPod 集群节点上运行的 Pod 上。相反,您需要使用InstanceStorageConfigs为 HyperPod 节点配置和装载其他 EBS 卷。请务必注意,在创建或更新 HyperPod 集群时,您只能将额外的 EBS 卷连接到新的实例组。使用这些额外的 EBS 卷配置实例组后,您需要在 Amazon EKS 容器组(pod)配置文件中将本地路径
设置为 /opt/sagemaker
,以便将卷正确挂载到 Amazon EKS 容器组(pod)。 -
您可以在 HyperPod 节点上部署 Amazon EBS CSI(容器存储接口)控制器。但是,便于装载和卸载 EBS 卷的 Amazon EBS CSI 节点 DaemonSet只能在非实例上运行。HyperPod
-
如果您使用实例类型标签来定义调度约束,请确保使用前缀为的 SageMaker AI ML 实例类型。
ml.
例如,对于 P5 实例,使用ml.p5.48xlarge
而不是p5.48xlarge
。
使用 Amazon EKS 为 SageMaker HyperPod 集群配置网络的注意事项
-
每个 HyperPod 集群实例都支持一个弹性网络接口 (ENI)。有关每个实例类型的最大容器组(pod)数量,请参阅下表。
实例类型 最大容器组(pod)数 ml.p4d.24xlarge 49 ml.p4de.24xlarge 49 ml.p5.48xlarge 49 ml.trn1.32xlarge 49 ml.trn1n.32xlarge 49 ml.g5.xlarge 14 ml.g5.2xlarge 14 ml.g5.4xlarge 29 ml.g5.8xlarge 29 ml.g5.12xlarge 49 ml.g5.16xlarge 29 ml.g5.24xlarge 49 ml.g5.48xlarge 49 ml.c5.large 9 ml.c5.xlarge 14 ml.c5.2xlarge 14 ml.c5.4xlarge 29 ml.c5.9xlarge 29 ml.c5.12xlarge 29 ml.c5.18xlarge 49 ml.c5.24xlarge 49 ml.c5n.large 9 ml.c5n.2xlarge 14 ml.c5n.4xlarge 29 ml.c5n.9xlarge 29 ml.c5n.18xlarge 49 ml.m5.large 9 ml.m5.xlarge 14 ml.m5.2xlarge 14 ml.m5.4xlarge 29 ml.m5.8xlarge 29 ml.m5.12xlarge 29 ml.m5.16xlarge 49 ml.m5.24xlarge 49 ml.t3.medium 5 ml.t3.large 11 ml.t3.xlarge 14 ml.t3.2xlarge 14 ml.g6.xlarge 14 ml.g6.2xlarge 14 ml.g6.4xlarge 29 ml.g6.8xlarge 29 ml.g6.12xlarge 29 ml.g6.16xlarge 49 ml.g6.24xlarge 49 ml.g6.48xlarge 49 ml.gr6.4xlarge 29 ml.gr6.8xlarge 29 ml.g6e.xlarge 14 ml.g6e.2xlarge 14 ml.g6e.4xlarge 29 ml.g6e.8xlarge 29 ml.g6e.12xlarge 29 ml.g6e.16xlarge 49 ml.g6e.24xlarge 49 ml.g6e.48xlarge 49 ml.p5e.48xlarge 49 -
默认情况下,只有
hostNetwork = true
拥有 Amazon EC2 实例元数据服务 (IMDS) 访问权限的 Pod 才能访问。使用 Amazon EKS Pod 身份或服务账户 (IRSA) 的 IAM 角色来管理对 Pod Amazon 凭证的访问权限。 -
EKS 编排 HyperPod 集群支持双 IP 寻址模式,允许在启用的 IPv6 VPC 和子网环境中使用或 IPv4 为 IPv6 A IPv6 mazon EKS 集群进行配置。有关更多信息,请参阅 SageMaker HyperPod使用自定义 Amazon VPC 进行设置。
使用集 HyperPod 群弹性功能的注意事项
-
CPU 实例不支持节点自动替换。
-
需要安装 HyperPod 运行状况监控代理才能使节点自动恢复正常工作。可使用 Helm 安装座席。有关更多信息,请参阅 使用 Helm 在 Amazon EKS 集群上安装软件包。
-
HyperPod 深度运行状况检查和运行状况监控代理支持 GPU 和 Trn 实例。
-
SageMaker 当节点接受深度健康检查时,AI 会对它们施加以下污点:
effect: NoSchedule key: sagemaker.amazonaws.com/node-health-status value: Unschedulable
注意
在打开
DeepHealthChecks
的情况下,无法为实例组中的节点添加自定义污点。
Amazon EKS 集群运行后,在创建集群使用 Helm 在 Amazon EKS 集群上安装软件包之前,请按照中的说明使用 Helm 包管理器配置 HyperPod 集群。