

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 创建集 SageMaker HyperPod 群
创建集群

设置完所有必需资源并将脚本上传到 Amazon S3 存储桶后，您可以创建集群。

1. 要创建集群，请运行[https://docs.amazonaws.cn//cli/latest/reference/sagemaker/create-cluster.html](https://docs.amazonaws.cn//cli/latest/reference/sagemaker/create-cluster.html) Amazon CLI 命令。创建过程可能最多需要 15 分钟才能完成。

   ```
   aws --region $REGION sagemaker create-cluster \
       --cluster-name $HP_CLUSTER_NAME \
       --vpc-config '{
           "SecurityGroupIds":["'$SECURITY_GROUP'"],
           "Subnets":["'$PRIMARY_SUBNET'", "'$BACKUP_SUBNET'"]
       }' \
       --instance-groups '[{                  
       "InstanceGroupName": "'$CONTOLLER_IG_NAME'",
       "InstanceType": "ml.t3.medium",
       "InstanceCount": 2,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://'$BUCKET_NAME'",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "'$SLURM_EXECUTION_ROLE_ARN'",
       "ThreadsPerCore": 1
   },
   {
       "InstanceGroupName": "'$COMPUTE_IG_NAME'",          
       "InstanceType": "ml.c5.xlarge",
       "InstanceCount": 2,
       "LifeCycleConfig": {
           "SourceS3Uri": "s3://'$BUCKET_NAME'",
           "OnCreate": "on_create.sh"
       },
       "ExecutionRole": "'$COMPUTE_NODE_ROLE'",
       "ThreadsPerCore": 1
   }]'
   ```

   成功执行后，该命令会返回集群 ARN，如下所示。

   ```
   {
       "ClusterArn": "arn:aws:sagemaker:us-east-1:111122223333:cluster/cluster_id"
   }
   ```

1. （可选）要检查集群的状态，您可以使用 SageMaker AI 控制台（[https://console.aws.amazon.com/sagemaker/](https://console.amazonaws.cn/sagemaker/)）。从左侧导航栏中选择 “**HyperPod 集群**”，然后选择 “**集群管理**”。选择集群名称以打开集群详细信息页面。如果您的集群已成功创建，您将看到集群状态为**InService**。  
![\[该图显示了 Amazon A SageMaker I 控制台中包含多个控制器节点的 HyperPod Slurm 集群。\]](http://docs.amazonaws.cn/sagemaker/latest/dg/images/hyperpod/hyperpod-lifecycle-multihead-cluster.png)