

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon SageMaker HyperPod 快速入门
<a name="sagemaker-hyperpod-quickstart"></a>

本快速入门将指导你使用 Slurm 和 Amazon EKS (EKS) 编排创建第一个 HyperPod 集群。选择最适合您的基础架构需求的编排以开始使用 SageMaker HyperPod。

**Topics**
+ [创建 SLURM 编排集群 SageMaker HyperPod](#sagemaker-hyperpod-quickstart-slurm)
+ [创建 EKS 编排集群 SageMaker HyperPod](#sagemaker-hyperpod-quickstart-eks)
+ [提交工作负载](#sagemaker-hyperpod-quickstart-workload)

## 创建 SLURM 编排集群 SageMaker HyperPod
<a name="sagemaker-hyperpod-quickstart-slurm"></a>

按照以下步骤使用 Slurm 编排创建您的第一个 SageMaker HyperPod 集群。

1. 打开 Amazon A SageMaker I 控制台，网址为[https://console.aws.amazon.com/sagemaker/](https://console.amazonaws.cn/sagemaker/)。

1. 在左侧导航窗格中选择 “集**HyperPod 群**”，然后选择 “**集群管理**”。

1. 在**SageMaker HyperPod 集群**页面上，选择**创建 HyperPod 集群**。

1. 在**创建 HyperPod 集群**下拉列表中，选择**由 Slurm 编排**。

1. 在集群创建页面上，选择**快速设置功能**。使用此选项，您可以立即开始使用默认设置。 SageMaker 在创建集群的过程中，AI 将创建新资源，例如 VPC、子网、安全组、Amazon S3 存储桶、IAM 角色和 FSx for Lustre。

1. 在**常规设置**中，为新集群指定一个名称。创建集群后，无法更改该名称。

1. 在**实例组**上，选择**添加组**。每个实例组都可以进行不同的配置，您可以创建一个异构集群，该集群由具有不同实例类型的多个实例组组成。要部署集群，您必须添加至少一个实例组。一次可添加一个实例组。要创建多个实例组，请为每个实例组重复此过程。

   执行以下步骤来创建实例组。

   1. 对于**实例组类型**，为实例组选择类型。在本快速入门中，为 `my-controller-group` 选择**控制器（主）**，为 `my-login-group` 选择**登录**，为 `worker-group-1` 选择**计算（worker）**。

   1. 对于**名称**，指定实例组的名称。在本快速入门中，创建三个实例组，分别命名为 `my-controller-group`、`my-login-group` 和 `worker-group-1`。

   1.  对于**实例容量**，选择按需容量或训练计划来预留计算资源。

   1. 对于**实例类型**，为实例组选择实例。在本快速入门中，为 `my-controller-group` 选择 `ml.c5.xlarge`，为 `my-login-group` 选择 `ml.m5.4xlarge`，为 `worker-group-1` 选择 `ml.trn1.32xlarge`。

      确保选择的实例类型在账户中有足够的配额，或按照[SageMaker HyperPod 配额](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas)中的说明操作来申请额外配额。

   1. 对于**实例数量**，指定一个不超过集群使用实例配额的整数。在本快速入门中，为所有三个组输入 **1**。

   1. 对于**目标可用区**，选择将在其中预调配实例的可用区。可用区应与加速计算容量所在的位置相对应。

   1. 对于**每个实例的附加存储卷(GB) – 可选**，指定 1 到 16384 之间的整数，以千兆字节（GB）为单位设置附加 Elastic Block Store（EBS）卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 `/opt/sagemaker`。成功创建集群后，您可以 SSH 登录集群实例（节点），并通过运行 `df -h` 命令验证 EBS 卷是否已正确加载。如 [Amazon Elastic Block Store 用户指南](https://docs.amazonaws.cn//ebs/latest/userguide/ebs-volumes.html)中的 *Amazon EBS 卷*部分所述，附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

   1. 选择**添加实例组**。

1.  在**快速配置默认值**上，查看默认设置。本部分列出了创建集群的所有默认设置，包括将在集群创建过程中创建的所有新 Amazon 资源。

1. 选择**提交**。

有关更多信息，请参阅 [开始 SageMaker HyperPod 使用 SageMaker AI 控制台](smcluster-getting-started-slurm-console.md)。

## 创建 EKS 编排集群 SageMaker HyperPod
<a name="sagemaker-hyperpod-quickstart-eks"></a>

按照以下步骤使用 Amazon EKS 编排创建您的第一个 SageMaker HyperPod 集群。

1. 打开 Amazon A SageMaker I 控制台，网址为[https://console.aws.amazon.com/sagemaker/](https://console.amazonaws.cn/sagemaker/)。

1. 在左侧导航窗格中选择 “集**HyperPod 群**”，然后选择 “**集群管理**”。

1. 在**SageMaker HyperPod 集群**页面上，选择**创建 HyperPod 集群**。

1. 在**创建 HyperPod 集群**下拉列表中，选择由 **Amazon EKS 编排**。

1. 在集群创建页面上，选择**快速设置**。使用此选项，您可以立即开始使用默认设置。 SageMaker 在创建集群的过程中，AI 将创建新资源，例如 VPC、子网、安全组、Amazon S3 存储桶、IAM 角色和 FSx for Lustre。

1. 在**常规设置**中，为新集群指定一个名称。创建集群后，无法更改该名称。

1. 在**实例组**上，选择**添加组**。每个实例组都可以进行不同的配置，您可以创建一个异构集群，该集群由具有不同实例类型的多个实例组组成。要部署集群，您必须添加至少一个实例组。一次可添加一个实例组。要创建多个实例组，请为每个实例组重复此过程。

   执行以下步骤来创建实例组。

   1. 对于**实例组类型**，选择**标准**或**受限实例组（RIG）**。通常，您将选择**标准**，此选项提供了通用计算环境，且无额外安全限制。**受限实例组（RIG）**是用于基础模型自定义的专用环境（例如 Amazon Nova）。有关为亚马逊 Nova 模型定制设置 RIG 的更多信息，请参阅亚马逊 Nova [1.0 用户指南或 Amazon Nova 2.0 用户指南 SageMaker HyperPod ](https://docs.amazonaws.cn//nova/latest/userguide/nova-hp.html)[中的 Amazon Nova](https://docs.amazonaws.cn//nova/latest/nova2-userguide/nova-hp.html) 定制。

   1. 对于**名称**，指定实例组的名称。

   1.  对于**实例容量**，选择按需容量或训练计划来预留计算资源。

   1. 对于**实例类型**，为实例组选择实例。确保选择的实例类型在账户中有足够的配额，或通过 [SageMaker HyperPod 配额](sagemaker-hyperpod-prerequisites.md#sagemaker-hyperpod-prerequisites-quotas) 申请额外配额。

   1. 对于**实例数量**，指定一个不超过集群使用实例配额的整数。在本快速入门中，为所有三个组输入 **1**。

   1. 对于**目标可用区**，选择将在其中预调配实例的可用区。可用区应与加速计算容量所在的位置相对应。

   1. 对于**每个实例的附加存储卷(GB) – 可选**，指定 1 到 16384 之间的整数，以千兆字节（GB）为单位设置附加 Elastic Block Store（EBS）卷的大小。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为 `/opt/sagemaker`。成功创建集群后，您可以 SSH 登录集群实例（节点），并通过运行 `df -h` 命令验证 EBS 卷是否已正确加载。如 [Amazon Elastic Block Store 用户指南](https://docs.amazonaws.cn//ebs/latest/userguide/ebs-volumes.html)中的 *Amazon EBS 卷*部分所述，附加 EBS 卷可提供稳定、非实例和独立持久化的存储。

   1. 对于**实例深度运行状况检查**，选择您的选项。深度运行状况检查可在创建期间以及软件更新后监控实例的运行状况，启用后，它会通过重启或替换的方式自动恢复故障实例。

   1. 选择**添加实例组**。

1.  在**快速配置默认值**上，查看默认设置。本部分列出了创建集群的所有默认设置，包括将在集群创建过程中创建的所有新 Amazon 资源。

1. 选择**提交**。

有关更多信息，请参阅 [使用 Amazon EKS 编排创建 SageMaker HyperPod 集群](sagemaker-hyperpod-eks-operate-console-ui-create-cluster.md)。

## 提交工作负载
<a name="sagemaker-hyperpod-quickstart-workload"></a>

按照这些讲习会教程操作，提交示例工作负载。
+ [Amazon f SageMaker HyperPod or Slurm](https://catalog.workshops.aws/sagemaker-hyperpod/en-US)
+ [亚马逊 F SageMaker HyperPod or Amazon EKS](https://catalog.workshops.aws/sagemaker-hyperpod-eks/en-US)