本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
更新 SageMaker HyperPod 集群配置
运行 update-cluster 以更新集群的配置。
注意
创建EKS集群后,您无法更改与 HyperPod集群关联的集群信息。
注意
如果集群上正在运行深度运行状况检查,API则无法按预期运行。您可能会遇到一条错误消息,指出正在进行深度运行状况检查。要更新集群,您应该等到深度运行状况检查完成。
-
按JSON格式创建
UpdateCluster
请求文件。确保指定正确的集群名称和实例组名称以进行更新。您可以更改实例类型、实例数量、生命周期配置入口点脚本和脚本路径。-
对于
ClusterName
,请指定要更新的集群的名称。 -
对于
InstanceGroupName
-
要更新现有实例组,请指定要更新的实例组的名称。
-
要添加新的实例组,请指定集群中不存在的新名称。
-
-
对于
InstanceType
-
要更新现有实例组,您必须与最初为该组指定的实例类型相匹配。
-
要添加新的实例组,请指定要用来配置该组的实例类型。
-
-
对于
InstanceCount
-
要更新现有实例组,请指定一个大于当前实例数的整数。目前,您只能增加实例的数量。
-
要添加新的实例组,请指定一个大于或等于 1 的整数。
-
-
对于
LifeCycleConfig
,您可以更改两者的值SourceS3Uri
,也可以OnCreate
根据需要更改实例组的值。 -
对于
ExecutionRole
-
要更新现有实例组,请继续使用您在创建集群时附加的相同IAM角色。
-
要添加新的实例组,请指定要附加的IAM角色。
-
-
对于
ThreadsPerCore
-
要更新现有实例组,请继续使用您在创建集群时指定的值。
-
要添加新的实例组,您可以从每个实例类型的允许选项中选择任意值。有关更多信息,请搜索实例类型,并查看 Amazon EC2 用户指南中参考表中每个核心的有效线程数和每个实例类型的每CPU核心线程数列。CPU
-
-
对于
OnStartDeepHealthChecks
、InstanceConnectivity
添加InstanceStress
和启用深度运行状况检查。 -
对于
NodeRecovery
,Automatic
请指定启用自动节点恢复。 SageMaker HyperPod 当运行状况监控代理发现问题时,替换或重启实例(节点)。
以下代码段是您可以使用的JSON请求文件模板。有关其请求语法和参数的更多信息API,请参阅UpdateClusterAPI参考资料。
// update_cluster.json { // Required "ClusterName": "
name-of-cluster-to-update
", // Required "InstanceGroups": [{ "InstanceGroupName":"string"
, "InstanceType":"string"
, "InstanceCount":number
, "LifeCycleConfig": { "SourceS3Uri":"string"
, "OnCreate":"string"
}, "ExecutionRole":"string"
, "ThreadsPerCore":number
, "OnStartDeepHealthChecks": ["InstanceStress", "InstanceConnectivity"
] }], "NodeRecovery": "Automatic" } -
-
运行以下
update-cluster
命令提交请求。aws sagemaker update-cluster \ --cli-input-json
file://complete/path/to/update_cluster.json