使用受限实例组 (RIG) 创建 HyperPod EKS 集群 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用受限实例组 (RIG) 创建 HyperPod EKS 集群

本主题介绍使用受限实例组 (RIG) 创建 Amazon SageMaker HyperPod EKS 集群的步骤。 SageMaker HyperPod EKS 集群中的 RIG 配置为训练 Amazon Nova 模型提供了一个专门的环境。RIG 有以下限制:

  • RIG 工作负载在没有互联网的 VPC 中运行,所有入口和出口都受到严格监管。

  • RIG 对 Kubernetes 函数(例如 Kubectl exec 和日志)的可观察性有限制,以确保为 Nova 模型训练提供安全的环境。

  • RIG 仅允许 Nova 自定义镜像,使用其他镜像运行的作业将被拒绝。

您可以在您的 E HyperPod KS 集群中设置实例组 RIGs 时创建。虽然您可以控制这些资源的大小和缩放比例,但不能直接访问工作节点。这种架构确保 Nova 组件(模型权重、检查点、训练数据和代码)只能通过受监管的渠道和服务管理的账户系统进行访问。

Nova 模型的定制 SageMaker HyperPod 依赖 FSx 于 Lustre 文件系统的服务管理来实现最佳性能。创建 RIG 时,必须为 for Lustre 文件系统指定卷大小和吞吐量,该文件系统将挂载到实例组中的所有工作节点上。 FSx FSx for Lustre 用于在分布式训练期间存储中间检查点和内部模型状态。按照配方中提供的指导选择合适的卷大小和吞吐量,以确保足够的容量和性能。 FSx 对于 Lustre 来说,使用费用将适用于您 Amazon Web Services 账户。

HyperPod EKS 集群中的 RIG 的重要注意事项

  • RIG 仅支持使用执行角色来获得权限。确保执行角色包含必要的 IAM 权限,例如对 Amazon S3 的访问权限。

  • 使用服务托管的 Amazon f FSx or Lustre 和 Amazon S3 时,请确保您的 f FSx or Lustre 文件系统的大小适合您的工作负载。训练数据清单已上传到 Amazon S3,执行角色必须可以访问该清单。

  • RIG 必须专门在新的 SageMaker HyperPod EKS 集群上创建或更新,该集群是在 2025 年 7 月 16 日当天或之后创建的。在此日期之前创建的集群可能包含不兼容的软件版本或 RIG 不支持的配置。

使用 RIG(控制台)创建 HyperPod EKS 集群

按照以下说明使用 HyperPod 控制台创建带 HyperPod 有 RIG 的 EKS 集群。

使用 RIG (CLI) 创建 HyperPod EKS 集群

按照以下说明使用创建带有 RIG 的 HyperPod EKS 集群 Amazon CLI。