创建集 SageMaker HyperPod 群 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建集 SageMaker HyperPod 群

了解如何EKS使用创建由 Amazon 编排的 SageMaker HyperPod 集群。 Amazon CLI

  1. 在创建集 SageMaker HyperPod 群之前:

    1. 确保您的现有 Amazon EKS 集群已启动并正在运行。有关如何设置亚马逊EKS集群的详细说明,请参阅亚马逊EKS用户指南中的创建亚马逊EKS集群

    2. 按照中的说明安装 Helm 图表使用 Helm 在亚马逊EKS集群上安装软件包

  2. 准备生命周期配置脚本并上传到 Amazon S3 存储桶,例如s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/

    要快速入门,请on_create.sh从 Amazon ome 分布式训练 GitHub 存储库下载示例脚本,然后将其上传到 S3 存储桶。此脚本设置了从 Pod 容器收集日志/var/log/provision/provisioning.log所需的 CloudWatch 日志文件。您还可以包括其他设置说明、一系列安装脚本或要在 HyperPod 集群配置阶段执行的命令。

    重要

    如果您只创建托管的IAM的角色 SageMaker HyperPod附件 AmazonSageMakerClusterInstanceRolePolicy,则您的集群可以访问带有特定前缀的 Amazon S3 存储桶。sagemaker-

  3. 准备JSON格式的CreateClusterAPI请求文件。对于ExecutionRole,请ARN提供您使用该部分AmazonSageMakerClusterInstanceRolePolicy中的托管IAM角色创建的角色IAM的角色 SageMaker HyperPod

    注意

    确保您的 SageMaker HyperPod 集群与您的 Amazon 集EKS群部署在同一个虚拟私有云 (VPC) 中。 SageMaker HyperPod 集群配置中指定的子网和安全组必须允许与 Amazon EKS 集群的API服务器终端节点进行网络连接和通信。

    // create_cluster.json { "ClusterName": "string", "InstanceGroups": [{ "InstanceGroupName": "string", "InstanceType": "string", "InstanceCount": number, "LifeCycleConfig": { "SourceS3Uri": "s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/", "OnCreate": "on_create.sh" }, "ExecutionRole": "string", "ThreadsPerCore": number, "OnStartDeepHealthChecks": [ "InstanceStress", "InstanceConnectivity" ] }], "VpcConfig": { "SecurityGroupIds": ["string"], "Subnets": ["string"] }, "Tags": [{ "Key": "string", "Value": "string" }], "Orchestrator": { "Eks": { "ClusterArn": "string", } }, "NodeRecovery": "Automatic" }

    配置为创建与 SageMaker HyperPod 集群关联的新集群时,请注意以下几点。EKS

    • 您最多可以在InstanceGroups参数下配置 20 个实例组。

    • 对于Orchestator.Eks.ClusterArn,ARN请指定要用作协调器的EKS集群。

    • 对于OnStartDeepHealthChecksInstanceConnectivity添加InstanceStress和启用深度运行状况检查

    • 对于NodeRecoveryAutomatic请指定启用自动节点恢复。 SageMaker HyperPod 当运行状况监控代理发现问题时,替换或重启实例(节点)。

    • 对于Tags参数,您可以添加用于将 SageMaker HyperPod 集群作为 Amazon 资源进行管理的自定义标签。您可以像在其他支持标记的 Amazon 服务中添加标签一样向集群添加标签。要了解有关为 Amazon 资源添加标签的更多信息,请参阅《标记 Amazon 资源用户指南》。

    • 对于VpcConfig参数,请指定EKS集群中VPC使用的信息。子网必须是私有的。

  4. 按如下方式运行创建集群命令。

    aws sagemaker create-cluster \ --cli-input-json file://complete/path/to/create_cluster.json

    这应该会ARN返回新集群的。