使用 SageMaker API 在训练计划上创建 SageMaker HyperPod 集群,或者 Amazon CLI - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker API 在训练计划上创建 SageMaker HyperPod 集群,或者 Amazon CLI

要对您的 Amazon SageMaker HyperPod 集群使用 SageMaker 训练计划,请在调用 CreateClusterAPI 操作ClusterInstanceGroupSpecification时在的TrainingPlanArn参数中指定要使用的训练计划的 ARN。

确保与计划的指定可用区关联的子网包含在集群配置的 VPCConfig 中。您可以在 DescribeTrainingPlanAPI 调用的响应中检索训练计划。AvailabilityZone

以下示例说明了如何创建新 SageMaker HyperPod 集群并在create-clusterAmazon CLI命令的--instance-groups属性中为实例组提供训练计划。

# Create a cluster aws sagemaker create-cluster \ --cluster-name cluster-name \ --instance-groups '[ \ { \ "InstanceCount": 1,\ "InstanceGroupName": "controller-nodes",\ "InstanceType": "ml.t3.xlarge",\ "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\ "ExecutionRole": "arn:aws:iam::customer_account_id:role/execution_role",\ "ThreadsPerCore": 1,\ },\ { \ "InstanceCount": 2, \ "InstanceGroupName": "worker-nodes",\ "InstanceType": "p4d.24xlarge",\ "LifeCycleConfig": {"SourceS3Uri": source_s3_uri, "OnCreate": "on_create.sh"},\ "ExecutionRole": "arn:aws:iam::customer_account_id}:role/execution_role}",\ "ThreadsPerCore": 1,\ "TrainingPlanArn": training_plan_arn,\ }]'

有关如何使用创建 HyperPod 集群的信息Amazon CLI,请参阅create-cluster

创建集群后,您可以通过调用 DescribeCluster API 来验证实例组是否已正确分配训练计划中的容量。

aws sagemaker describe-cluster --cluster-name cluster-name