更新 SageMaker HyperPod 集群配置 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

更新 SageMaker HyperPod 集群配置

运行 update-cluster 以更新集群的配置。

注意

创建EKS集群后,您无法更改与 HyperPod集群关联的集群信息。

注意

如果集群上正在运行深度运行状况检查,API则无法按预期运行。您可能会遇到一条错误消息,指出正在进行深度运行状况检查。要更新集群,您应该等到深度运行状况检查完成。

  1. 按JSON格式创建UpdateCluster请求文件。确保指定正确的集群名称和实例组名称以进行更新。您可以更改实例类型、实例数量、生命周期配置入口点脚本和脚本路径。

    1. 对于ClusterName,请指定要更新的集群的名称。

    2. 对于 InstanceGroupName

      1. 要更新现有实例组,请指定要更新的实例组的名称。

      2. 要添加新的实例组,请指定集群中不存在的新名称。

    3. 对于 InstanceType

      1. 要更新现有实例组,您必须与最初为该组指定的实例类型相匹配。

      2. 要添加新的实例组,请指定要用来配置该组的实例类型。

    4. 对于 InstanceCount

      1. 要更新现有实例组,请指定一个大于当前实例数的整数。目前,您只能增加实例的数量。

      2. 要添加新的实例组,请指定一个大于或等于 1 的整数。

    5. 对于LifeCycleConfig,您可以更改两者的值SourceS3Uri,也可以OnCreate根据需要更改实例组的值。

    6. 对于 ExecutionRole

      1. 要更新现有实例组,请继续使用您在创建集群时附加的相同IAM角色。

      2. 要添加新的实例组,请指定要附加的IAM角色。

    7. 对于 ThreadsPerCore

      1. 要更新现有实例组,请继续使用您在创建集群时指定的值。

      2. 要添加新的实例组,您可以从每个实例类型的允许选项中选择任意值。有关更多信息,请搜索实例类型,并查看 Amazon EC2 用户指南中参考表中每个核心的有效线程数和每个实例类型的每CPU核心线程数列。CPU

    8. 对于OnStartDeepHealthChecksInstanceConnectivity添加InstanceStress和启用深度运行状况检查

    9. 对于NodeRecoveryAutomatic请指定启用自动节点恢复。 SageMaker HyperPod 当运行状况监控代理发现问题时,替换或重启实例(节点)。

    以下代码段是您可以使用的JSON请求文件模板。有关其请求语法和参数的更多信息API,请参阅UpdateClusterAPI参考资料。

    // update_cluster.json { // Required "ClusterName": "name-of-cluster-to-update", // Required "InstanceGroups": [{ "InstanceGroupName": "string", "InstanceType": "string", "InstanceCount": number, "LifeCycleConfig": { "SourceS3Uri": "string", "OnCreate": "string" }, "ExecutionRole": "string", "ThreadsPerCore": number, "OnStartDeepHealthChecks": [ "InstanceStress", "InstanceConnectivity" ] }], "NodeRecovery": "Automatic" }
  2. 运行以下update-cluster命令提交请求。

    aws sagemaker update-cluster \ --cli-input-json file://complete/path/to/update_cluster.json