本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
创建集 SageMaker HyperPod 群
了解如何EKS使用创建由 Amazon 编排的 SageMaker HyperPod 集群。 Amazon CLI
-
在创建集 SageMaker HyperPod 群之前:
-
确保您的现有 Amazon EKS 集群已启动并正在运行。有关如何设置亚马逊EKS集群的详细说明,请参阅亚马逊EKS用户指南中的创建亚马逊EKS集群。
-
按照中的说明安装 Helm 图表使用 Helm 在亚马逊EKS集群上安装软件包。
-
-
准备生命周期配置脚本并上传到 Amazon S3 存储桶,例如
s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/
。要快速入门,请
on_create.sh
从 Amazon ome 分布式训练 GitHub 存储库下载示例脚本,然后将其上传到 S3 存储桶。此脚本设置了从 Pod 容器收集日志 /var/log/provision/provisioning.log
所需的 CloudWatch 日志文件。您还可以包括其他设置说明、一系列安装脚本或要在 HyperPod 集群配置阶段执行的命令。重要
如果您只创建托管的IAM的角色 SageMaker HyperPod附件
AmazonSageMakerClusterInstanceRolePolicy
,则您的集群可以访问带有特定前缀的 Amazon S3 存储桶。sagemaker-
-
准备JSON格式的CreateClusterAPI请求文件。对于
ExecutionRole
,请ARN提供您使用该部分AmazonSageMakerClusterInstanceRolePolicy
中的托管IAM角色创建的角色IAM的角色 SageMaker HyperPod。注意
确保您的 SageMaker HyperPod 集群与您的 Amazon 集EKS群部署在同一个虚拟私有云 (VPC) 中。 SageMaker HyperPod 集群配置中指定的子网和安全组必须允许与 Amazon EKS 集群的API服务器终端节点进行网络连接和通信。
// create_cluster.json
{ "ClusterName":"string"
, "InstanceGroups": [{ "InstanceGroupName":"string"
, "InstanceType":"string"
, "InstanceCount":number
, "LifeCycleConfig": { "SourceS3Uri":"s3://sagemaker-amzn-s3-demo-bucket>/<lifecycle-script-directory>/src/"
, "OnCreate":"on_create.sh"
}, "ExecutionRole":"string"
, "ThreadsPerCore":number
, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"
] }], "VpcConfig": { "SecurityGroupIds": ["string"
], "Subnets": ["string"
] }, "Tags": [{ "Key":"string"
, "Value":"string"
}], "Orchestrator": { "Eks": { "ClusterArn":"string"
, } }, "NodeRecovery": "Automatic" }配置为创建与 SageMaker HyperPod 集群关联的新集群时,请注意以下几点。EKS
-
您最多可以在
InstanceGroups
参数下配置 20 个实例组。 -
对于
Orchestator.Eks.ClusterArn
,ARN请指定要用作协调器的EKS集群。 -
对于
OnStartDeepHealthChecks
、InstanceConnectivity
添加InstanceStress
和启用深度运行状况检查。 -
对于
NodeRecovery
,Automatic
请指定启用自动节点恢复。 SageMaker HyperPod 当运行状况监控代理发现问题时,替换或重启实例(节点)。 -
对于
Tags
参数,您可以添加用于将 SageMaker HyperPod 集群作为 Amazon 资源进行管理的自定义标签。您可以像在其他支持标记的 Amazon 服务中添加标签一样向集群添加标签。要了解有关为 Amazon 资源添加标签的更多信息,请参阅《标记 Amazon 资源用户指南》。 -
对于
VpcConfig
参数,请指定EKS集群中VPC使用的信息。子网必须是私有的。
-
-
按如下方式运行创建集群命令。
aws sagemaker create-cluster \ --cli-input-json
file://complete/path/to/create_cluster.json
这应该会ARN返回新集群的。