使用Amazon CloudFormation模板创建 SageMaker HyperPod 集群 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用Amazon CloudFormation模板创建 SageMaker HyperPod 集群

您可以使用的 CloudFormation 模板创建 SageMaker HyperPod 集群 HyperPod。必须安装Amazon CLI才能继续。

在控制台中配置资源并使用进行部署 CloudFormation

您可以使用配置资源Amazon Web Services 管理控制台并使用 CloudFormation模板进行部署。

执行以下步骤。

  1. 不要@@ 选择 “提交”,而是在教程结尾处选择 “下载 CloudFormation 模板参数开始 SageMaker HyperPod 使用 SageMaker AI 控制台。本教程包含成功创建集群所需的重要配置信息。

    重要

    如果您选择提交,则在删除集群之前,无法部署同名集群。

    选择下载 CloudFormation 模板参数后,页面右侧将出现 “使用配置文件使用该Amazon CLI窗口创建集群”。

  2. 使用配置文件通过 Amazon CLI 创建集群窗口上,选择下载配置参数文件。该文件将下载到您的计算机上。可以根据需要编辑配置 JSON 文件,如果不需要进行更改,也可以将其保持原样。

  3. 在终端,导航到参数文件 file://params.json 的位置。

  4. 运行 create-stack Amazon CLI 命令部署 CloudFormation 堆栈,该堆栈将预配置的资源并创建集群。 HyperPod

    aws cloudformation create-stack --stack-name my-stack --template-url https://aws-sagemaker-hyperpod-cluster-setup.amazonaws.com/templates-slurm/main-stack-slurm-based-template.yaml --parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
  5. 要查看资源配置的状态,请导航到CloudFormation 控制台

    集群创建完成后,在 SageMaker HyperPod控制台主窗格的 “集群” 下查看新集群。您可以查看状态栏下显示的状态。

  6. 集群状态变为 InService 后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业

使用配置资源和部署 CloudFormation

您可以使用的 CloudFormation 模板配置资源和部署 SageMaker HyperPod。

执行以下步骤。

  1. SageMaker HyperPod 从sagemaker-hyperpod-cluster-setup GitHub 存储库下载的 CloudFormation 模板。

  2. 运行 create-stack Amazon CLI 命令部署 CloudFormation 堆栈,该堆栈将预配置的资源并创建集群。 HyperPod

    aws cloudformation create-stack --stack-name my-stack --template-url URL_of_the_file_that_contains_the_template_body --parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
  3. 要查看资源预置的状态,请导航到 CloudFormation 控制台。

    集群创建完成后,在 SageMaker HyperPod控制台主窗格的 “集群” 下查看新集群。您可以查看状态栏下显示的状态。

  4. 集群状态变为 InService 后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业