Amazon SageMaker HyperPod 快速入门 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker HyperPod 快速入门

本快速入门将指导你使用 Slurm 和 Amazon EKS (EKS) 编排创建第一个 HyperPod 集群。选择最适合您的基础架构需求的编排以开始使用 SageMaker HyperPod。

创建 SLURM 编排集群 SageMaker HyperPod

按照以下步骤使用 Slurm 编排创建您的第一个 SageMaker HyperPod 集群。

  1. 打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中选择 “集HyperPod 群”,然后选择 “集群管理”。

  3. SageMaker HyperPod 集群页面上,选择创建 HyperPod 集群

  4. 创建 HyperPod 集群下拉列表中,选择由 Slurm 编排

  5. 在集群创建页面上,选择快速设置功能。使用此选项,您可以立即开始使用默认设置。 SageMaker 在创建集群的过程中,AI 将创建新资源,例如 VPC、子网、安全组、Amazon S3 存储桶、IAM 角色和 FSx for Lustre。

  6. 常规设置中,为新集群指定一个名称。创建集群后,无法更改该名称。

  7. 实例组上,选择添加组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。要部署集群,您必须添加至少一个实例组。一次可添加一个实例组。要创建多个实例组,请为每个实例组重复此过程。

    执行以下步骤来创建实例组。

    1. 对于实例组类型,为实例组选择类型。在本快速入门中,为 my-controller-group 选择控制器(主),为 my-login-group 选择登录,为 worker-group-1 选择计算(worker)

    2. 对于名称,指定实例组的名称。在本快速入门中,创建三个实例组,分别命名为 my-controller-groupmy-login-groupworker-group-1

    3. 对于实例容量,选择按需容量或训练计划来预留计算资源。

    4. 对于实例类型,为实例组选择实例。在本快速入门中,为 my-controller-group 选择 ml.c5.xlarge,为 my-login-group 选择 ml.m5.4xlarge,为 worker-group-1 选择 ml.trn1.32xlarge

      确保选择的实例类型在账户中有足够的配额,或按照SageMaker HyperPod 配额中的说明操作来申请额外配额。

    5. 对于实例数量,指定一个不超过集群使用实例配额的整数。在本快速入门中,为所有三个组输入 1

    6. 对于目标可用区,选择将在其中预调配实例的可用区。可用区应与加速计算容量所在的位置相对应。

    7. 对于每个实例的附加存储卷(GB)– 可选,指定 1 到 16384 之间的整数,以千兆字节(GB)为单位设置附加 Elastic Block Store(EBS)卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 /opt/sagemaker。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行 df -h 命令验证 EBS 卷是否已正确加载。如 Amazon Elastic Block Store 用户指南中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

    8. 选择添加实例组

  8. 快速配置默认值上,查看默认设置。本部分列出了创建集群的所有默认设置,包括将在集群创建过程中创建的所有新Amazon资源。

  9. 选择提交

有关更多信息,请参阅 开始 SageMaker HyperPod 使用 SageMaker AI 控制台

创建 EKS 编排集群 SageMaker HyperPod

按照以下步骤使用 Amazon EKS 编排创建您的第一个 SageMaker HyperPod 集群。

  1. 打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中选择 “集HyperPod 群”,然后选择 “集群管理”。

  3. SageMaker HyperPod 集群页面上,选择创建 HyperPod 集群

  4. 创建 HyperPod 集群下拉列表中,选择由 Amazon EKS 编排

  5. 在集群创建页面上,选择快速设置。使用此选项,您可以立即开始使用默认设置。 SageMaker 在创建集群的过程中,AI 将创建新资源,例如 VPC、子网、安全组、Amazon S3 存储桶、IAM 角色和 FSx for Lustre。

  6. 常规设置中,为新集群指定一个名称。创建集群后,无法更改该名称。

  7. 实例组上,选择添加组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。要部署集群,您必须添加至少一个实例组。一次可添加一个实例组。要创建多个实例组,请为每个实例组重复此过程。

    执行以下步骤来创建实例组。

    1. 对于实例组类型,选择标准受限实例组(RIG)。通常,您将选择标准,此选项提供了通用计算环境,且无额外安全限制。受限实例组(RIG)是用于基础模型自定义的专用环境(例如 Amazon Nova)。有关为 Amazon Nova 模型自定义设置 RIG 的更多信息,请参阅亚马逊上的 Amazon Nova 定制 SageMaker HyperPod

    2. 对于名称,指定实例组的名称。

    3. 对于实例容量,选择按需容量或训练计划来预留计算资源。

    4. 对于实例类型,为实例组选择实例。确保选择的实例类型在账户中有足够的配额,或通过 SageMaker HyperPod 配额 申请额外配额。

    5. 对于实例数量,指定一个不超过集群使用实例配额的整数。在本快速入门中,为所有三个组输入 1

    6. 对于目标可用区,选择将在其中预调配实例的可用区。可用区应与加速计算容量所在的位置相对应。

    7. 对于每个实例的附加存储卷(GB)– 可选,指定 1 到 16384 之间的整数,以千兆字节(GB)为单位设置附加 Elastic Block Store(EBS)卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 /opt/sagemaker。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行 df -h 命令验证 EBS 卷是否已正确加载。如 Amazon Elastic Block Store 用户指南中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

    8. 对于实例深度运行状况检查,选择您的选项。深度运行状况检查可在创建期间以及软件更新后监控实例的运行状况,启用后,它会通过重启或替换的方式自动恢复故障实例。

    9. 选择添加实例组

  8. 快速配置默认值上,查看默认设置。本部分列出了创建集群的所有默认设置,包括将在集群创建过程中创建的所有新Amazon资源。

  9. 选择提交

有关更多信息,请参阅 使用 Amazon EKS 编排创建 SageMaker HyperPod 集群

提交工作负载

按照这些讲习会教程操作,提交示例工作负载。