创建集 SageMaker HyperPod 群 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建集 SageMaker HyperPod 群

了解如何使用创建由 Amazon EKS 编排的 SageMaker HyperPod 集群。 Amazon CLI

  1. 在创建集 SageMaker HyperPod 群之前:

    1. 确保现有 Amazon EKS 集群已启动并运行。有关如何设置 Amazon EKS 集群的详细说明,请参阅 Amazon EKS 用户指南中的创建 Amazon EKS 集群

    2. 按照 使用 Helm 在 Amazon EKS 集群上安装软件包 中的说明安装 Helm 图表。

  2. 准备生命周期配置脚本然后上传到 Amazon S3 存储桶,如 s3://amzn-s3-demo-bucket/Lifecycle-scripts/base-config/

    要快速入门,请on_create.sh从 Amazon ome 分布式训练 GitHub 存储库下载示例脚本,然后将其上传到 S3 存储桶。此脚本设置了从 Pod 容器收集日志/var/log/provision/provisioning.log所需的 CloudWatch 日志文件。您还可以包括其他设置说明、一系列安装脚本或要在 HyperPod 集群配置阶段执行的命令。

    重要

    如果您创建的 IAM 角色适用于 SageMaker HyperPod 只附加托管的 AmazonSageMakerClusterInstanceRolePolicy,则集群可访问具有特定前缀 sagemaker- 的 Amazon S3 存储桶。

  3. 准备一个 JSON 格式的 CreateClusterAPI 请求文件。对于 ExecutionRole,请提供使用托管的 AmazonSageMakerClusterInstanceRolePolicyIAM 角色适用于 SageMaker HyperPod 部分创建的 IAM 角色的 ARN。

    注意

    确保您的 SageMaker HyperPod 集群与您的 Amazon EKS 集群部署在同一个虚拟私有云 (VPC) 中。 SageMaker HyperPod 集群配置中指定的子网和安全组必须允许与 Amazon EKS 集群的 API 服务器终端节点进行网络连接和通信。

    // create_cluster.json { "ClusterName": "string", "InstanceGroups": [{ "InstanceGroupName": "string", "InstanceType": "string", "InstanceCount": number, "LifeCycleConfig": { "SourceS3Uri": "s3://amzn-s3-demo-bucket-sagemaker>/<lifecycle-script-directory>/src/", "OnCreate": "on_create.sh" }, "ExecutionRole": "string", "ThreadsPerCore": number, "OnStartDeepHealthChecks": [ "InstanceStress", "InstanceConnectivity" ] }], "VpcConfig": { "SecurityGroupIds": ["string"], "Subnets": ["string"] }, "Tags": [{ "Key": "string", "Value": "string" }], "Orchestrator": { "Eks": { "ClusterArn": "string", } }, "NodeRecovery": "Automatic" }

    配置为创建与 EKS SageMaker HyperPod 集群关联的新集群时,请注意以下几点。

    • InstanceGroups 参数下最多可配置 20 个实例组。

    • 对于 Orchestator.Eks.ClusterArn,请指定要用作编排工具的 EKS 集群的 ARN。

    • 对于 OnStartDeepHealthChecks,添加 InstanceStressInstanceConnectivity,以启用 深度运行状况检查

    • 对于NodeRecoveryAutomatic请指定启用自动节点恢复。 SageMaker HyperPod 当运行状况监控代理发现问题时,替换或重启实例(节点)。

    • 对于Tags参数,您可以添加用于将 SageMaker HyperPod 集群作为 Amazon 资源进行管理的自定义标签。在其他支持标记的 Amazon 服务中添加标签的方式与在集群中添加标签的方式相同。要了解有关标记 Amazon 资源的更多信息,请参阅《标记 Amazon 资源用户指南》

    • 对于 VpcConfig 参数,请指定 EKS 集群中使用的 VPC 的信息。子网必须是专用的。

  4. 运行 create-cluster 命令如下。

    重要

    使用--cli-input-json参数运行create-cluster命令时,必须在 JSON 文件的完整路径前file://添加前缀。必须使用此前缀来确保将输入 Amazon CLI 识别为文件路径。省略前file://缀会导致解析参数错误。

    aws sagemaker create-cluster \ --cli-input-json file://complete/path/to/create_cluster.json

    这将返回新集群的 ARN。