工作原理使用计量创建一个已启用持续预调配的集群最低容量要求 (MinCount)灵活的实例组

Amazon EKS 上用于增强集群操作的持续预调配功能

使用 Amazon EKS 编排创建的 Amazon SageMaker HyperPod 集群现在支持持续配置，这是一项新功能，可提高运行大规模 AI/ML 工作负载的灵活性和效率。持续预调配功能可让您快速启动训练、无缝扩展、在不中断操作的情况下执行维护，并对集群操作拥有精细可见性。

注意

对于使用 EKS 编排创建的 HyperPod 集群，可将持续配置作为可选配置提供。 HyperPod 使用 Slurm 编排创建的集群还支持持续配置。有关更多信息，请参阅使用 Slurm 持续配置以增强集群操作。

工作原理

持续预调配系统引入了一种期望状态架构，取代了传统的基于请求的模型。这种新架构支持在不同资源级别实现并行、非阻塞操作，同时保持系统稳定性与性能。持续预调配系统：

接受请求：记录每个实例组的目标实例数
启动预调配：开始启动实例以达到目标数量

跟踪进度：监控每次实例启动尝试并记录状态
处理失败：自动重试失败的启动

默认情况下，持续预调配功能处于禁用状态。要使用此功能，必须将 --node-provisioning-mode 设置为 Continuous。

启用持续预调配功能后，您可以同时启动多个扩展操作，无需等待之前的操作完成。这使您能够同时扩展同一个集群中不同的实例组，并向同一个实例组提交多个扩展请求。

持续配置还允许您访问DescribeClusterEvent和ListClusterEvent查看详细的事件监控和操作可见性。

使用计量

HyperPod 具有持续预配功能的集群使用实例级计量来提供反映实际资源使用情况的准确账单。这种计量方法不同于传统的集群级别计费，它会对每个实例进行独立跟踪。

Instance-level 计费

利用持续预调配功能，计费将在单个实例级别开始和停止，而不是等待集群级别的状态变化。此方法具有以下优势：

精准的计费准确性：生命周期脚本开始执行时，开始计费。如果生命周期脚本失败，则将重试实例预调配，并按生命周期脚本运行时的持续时间向您收取费用。
独立计量：每个实例的计费生命周期均单独管理，从而防止级联计费错误
Real-time 账单更新：计费从实例开始执行其生命周期脚本时开始，在实例进入终止状态时停止

计费生命周期

HyperPod 集群中的每个实例都遵循以下账单生命周期：

计费开始：当实例成功启动并开始执行其生命周期配置脚本时
计费继续：在实例的整个运行生命周期内
计费停止：当实例进入终止状态时（无论终止原因如何）

注意

对于启动失败的实例，不会开始计费。如果因容量不足或其他问题导致实例启动失败，您无需为失败的尝试付费。计费在实例级别计算，费用将汇总并显示在集群的 Amazon 资源名称（ARN）下。

创建一个已启用持续预调配的集群

注意

您必须拥有一个已配置 VPC 联网且已安装所需的 Helm 图表的现有 Amazon EKS 集群。此外，需准备一个生命周期配置脚本并将其上传到执行角色可访问的 Amazon S3 存储桶。有关更多信息，请参阅管理由 Amazon EKS 编排的 SageMaker HyperPod 集群。

以下 Amazon CLI 操作创建了一个具有一个实例组并启用了持续配置的 HyperPod 集群。


aws sagemaker create-cluster \ 
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "ig-1",
   "InstanceType": "ml.c5.2xlarge",
   "InstanceCount": 2,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create_noop.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'",
   "ThreadsPerCore": 1,
   "TrainingPlanArn": ""
}' \
--node-provisioning-mode Continuous


// Expected Output:
{
    "ClusterArn": "arn:aws:sagemaker:us-west-2:<account-id>:cluster/<cluster-id>"
}

创建集群后，您可以使用ListClusterNodes或DescribeClusterNode来查找有关集群中节点的更多信息。

调用这些操作将返回一个具有以下值之一的ClusterInstanceStatusDetails对象：

Running：节点运行状况良好，并且已在集群编排工具（EKS）中注册。
Failure：节点预调配失败，但系统将自动使用新的 EC2 实例重试预调配。
Pending：正在预调配或重启节点。
ShuttingDown：节点终止正在进行中。如果终止过程遇到问题，节点将转为 Failure 状态；否则，将成功从集群中移除节点。
SystemUpdating：该节点正在进行 AMI 修补，可以手动触发，也可以作为修补 cronjob 的一部分触发。
DeepHealthCheckInProgress: 正在进行深度运行状况检查 (DHC)。此过程所需时间从几分钟到几小时不等，具体取决于测试的性质。运行状况不佳的节点会被替换，运行状况良好的节点会切换至 Running 状态。
NotFound：用于BatchAddClusterNodes响应，表示在等性重播期间节点已被删除。

最低容量要求 (MinCount)

该 MinCount 功能允许您指定在实例组转换为InService状态之前必须成功配置的最小实例数量。此功能可以更好地控制扩展操作，并有助于防止出现部分预配置的实例组无法有效用于训练工作负载的情况。

重要

MinCount 并不能永久保证最低容量。它只能确保当实例组首次变为时，可用的实例数量达到指定的最小数量InService。在正常操作期间，例如不健康的实例更换或维护活动， MinCount 可能会出现短暂的下滑。

如何 MinCount 运作

当您创建或更新 MinCount 启用状态的实例组时，会发生以下行为：

新实例组：实例组将保持Creating状态，直到至少成功配置 MinCount 实例并准备就绪。达到此阈值后，实例组将转换为InService。
现有实例组：更新 MinCount 现有实例组时，状态将更改为，Updating直到满足新 MinCount 要求为止。
持续扩展：如果大 TargetCount 于 MinCount，则持续扩展系统将继续尝试启动其他实例，直到达到 TargetCount 该值。
超时和回滚：如果在 3 小时内 MinCount 无法满足，系统会自动将实例组回滚到其上次已知的良好状态。有关回滚行为的更多信息，请参阅自动回滚行为。

MinCount 操作期间的实例组状态

MinCount 已配置的实例组表现出以下状态行为：

Creating: 对于新的实例组 CurrentCount < MinCount. 在满足最低容量要求之前，实例组将保持此状态。
Updating: 对于现有实例组 MinCount ，当修改时和 CurrentCount < MinCount. 在满足新的最低容量要求之前，实例组将保持此状态。
InService: 当 MinCount ≤ CurrentCount ≤ TargetCount 时实例组已准备就绪，所有变更操作均已解锁。

在Creating或Updating状态期间，以下限制适用：

诸如BatchAddClusterNodes、BatchDeleteClusterNodes或之类的变异操作UpdateClusterSoftware被阻止
您仍然可以修改 MinCount 和 TargetCount 值以更正配置错误
始终允许删除集群和实例组

自动回滚行为

如果某个实例组无法 MinCount 在 3 小时内到达其状态，则系统会自动启动回滚以防止无限期等待：

新实例组： MinCount 和重置 TargetCount 为 (0, 0)
现有实例组： MinCount TargetCount 和从上次InService状态恢复到其值
选择要终止的实例：如果需要在回滚期间终止实例，则系统会先选择运行状况不佳的实例，然后选择最近配置的实例。
状态转换：实例组在启动回滚后立即转换为InService状态，允许持续扩展系统根据回滚设置管理容量

每次更新时，3 小时的超时 MinCount 都会重置。例如，如果您 MinCount 多次更新，则超时时间将从最近一次更新重新开始。

MinCount 事件

系统会发出特定事件来帮助您跟踪 MinCount 操作：

已达到最低容量：当实例组成功到达其容量 MinCount 并过渡到时发出 InService
已启动回滚：在 3 小时超时到期且自动回滚开始时发出

您可以使用监控这些事件ListClusterEvents来跟踪 MinCount 操作进度。

API 使用

MinCount 使用实例组配置中的MinInstanceCount参数指定：


aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET'"]
}' \
--instance-groups '{
   "InstanceGroupName": "worker-group",
   "InstanceType": "ml.p4d.24xlarge",
   "InstanceCount": 64,
   "MinInstanceCount": 50,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'"
}' \
--node-provisioning-mode Continuous

MinCount 使用时的关键注意事项：

MinInstanceCount必须介于 0 和InstanceCount（含）CreateCluster或UpdateCluster请求中指定的实例组的值之间
设置MinInstanceCount为 0（默认）可保留标准的连续缩放行为
设置为MinInstanceCount等于InstanceCount提供要么全有要么全无的缩放行为
MinCount 仅适用于设置为的NodeProvisioningMode集群 Continuous

灵活的实例组

灵活的实例组允许您在单个实例组中指定多个实例类型。这通过减少您需要创建和管理的实例组的数量来简化集群管理，特别是对于使用自动缩放的推理工作负载。

借助灵活的实例组，可以 HyperPod：

尝试使用列表中的第一个实例类型配置实例
如果容量不可用，则回退到后续的实例类型
在缩容期间首先终止优先级最低的实例类型的实例

注意

灵活的实例组仅适用于NodeProvisioningMode设置为的集群Continuous。InstanceType和InstanceRequirements属性是互斥的，您可以指定其中一个，但不能同时指定两个。

使用灵活的实例组创建集群

使用InstanceRequirements代InstanceType替创建灵活的实例组。列表中实例类型的顺序决定了预配的优先级。


aws sagemaker create-cluster \
--cluster-name $HP_CLUSTER_NAME \
--orchestrator 'Eks={ClusterArn='$EKS_CLUSTER_ARN'}' \
--vpc-config '{
   "SecurityGroupIds": ["'$SECURITY_GROUP'"],
   "Subnets": ["'$SUBNET_AZ1'", "'$SUBNET_AZ2'"]
}' \
--instance-groups '[{
   "InstanceGroupName": "flexible-ig",
   "InstanceRequirements": {
      "InstanceTypes": ["ml.p5.48xlarge", "ml.p4d.24xlarge", "ml.g6.48xlarge"]
   },
   "InstanceCount": 10,
   "LifeCycleConfig": {
      "SourceS3Uri": "s3://'$BUCKET_NAME'",
      "OnCreate": "on_create.sh"
   },
   "ExecutionRole": "'$EXECUTION_ROLE'"
}]' \
--node-provisioning-mode Continuous

有针对性的扩展 BatchAddClusterNodes

使用灵活的实例组时，您可以使用BatchAddClusterNodes添加具有特定实例类型和可用区的节点。当 Karpenter 自动扩展为您的工作负载确定最佳实例类型和可用区时，这特别有用。


aws sagemaker batch-add-cluster-nodes \
--cluster-name $HP_CLUSTER_NAME \
--nodes-to-add '[
   {
      "InstanceGroupName": "flexible-ig",
      "IncrementTargetCountBy": 1,
      "InstanceTypes": ["ml.p5.48xlarge"],
      "AvailabilityZones": ["us-west-2a"]
   }
]'

查看灵活的实例组详细信息

DescribeCluster用于查看您的灵活实例组的实例类型和每种类型的明细。响应包括以下内容：

InstanceRequirements— 实例组的当前和所需的实例类型
InstanceTypeDetails— 按实例类型划分，显示组中每种实例类型的数量和配置

将灵活的实例组与 Karpenter 自动缩放配合使用

灵活的实例组与 HyperPod托管 Karpenter 自动扩缩功能集成。有关设置 Karpenter 的更多信息，请参阅。在 EKS 上 SageMaker HyperPod 自动缩放当您在HyperPodNodeClass配置中引用灵活的实例组时，Karpenter 会自动：

从灵活的实例组中检测支持的实例类型
根据 Pod 要求和定价选择最佳实例类型和可用区
使用具有所选实例类型和可用区的定向BatchAddClusterNodes调用扩展灵活的实例组

注意

当 Karpenter 管理扩展时，它会根据容器需求和定价使用自己的选择逻辑来确定要配置的实例类型。这与本机配置使用的列表顺序优先级（例如CreateCluster和UpdateCluster）不同，后者总是先尝试列表中的第一个实例类型。 HyperPod

这样就无需为每种实例类型创建单独的实例组，也无需手动配置 Karpenter 以引用多个组。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

访问 CloudWatch 容器见解控制面板

在 EKS 上 HyperPod 自动缩放