本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker HyperPod Inference 发行说明
本主题涵盖了跟踪 Amazon SageMaker HyperPod Inference 的更新、修复和新功能的发行说明。 SageMaker HyperPod 推理使您能够以企业级的可靠性在 HyperPod 集群上部署和扩展机器学习模型。有关 Amazon SageMaker HyperPod 平台的一般版本、更新和改进,请参阅亚马逊 SageMaker HyperPod 发行说明。
有关 SageMaker HyperPod 推理功能和部署选项的信息,请参阅在亚马逊上部署模型 SageMaker HyperPod。
SageMaker HyperPod 推理发行说明:v3.0
发布日期:2026 年 2 月 23 日
摘要
Inference Operator 3.0 引入了 EKS 插件集成,可简化生命周期管理,支持精细调度控制的 Node Affinity,并改进了资源标记。现有的基于 Helm 的安装可以使用提供的迁移脚本迁移到 EKS 附加组件。升级之前,请使用新的标记权限更新您的推理运算符执行角色。
主要特点
-
EKS 插件集成 — 企业级生命周期管理,简化安装体验
-
Node Affinity — 精细的调度控制,用于排除竞价型实例、首选可用区或使用自定义标签定位节点
有关包括先决条件、升级说明和迁移指南在内的详细信息,请参阅以下部分。
先决条件
在将 Helm 版本升级到 3.0 之前,客户应为其推理运算符执行角色添加额外的标记权限。作为改善资源标记和安全性的一部分,推理运算符现在可以标记 ALB、S3 和 ACM 资源。此增强功能需要具有推理运算符执行角色的额外权限。向您的推理运算符执行角色添加以下权限:
{ "Sid": "CertificateTagginPermission", "Effect": "Allow", "Action": [ "acm:AddTagsToCertificate" ], "Resource": "arn:aws:acm:*:*:certificate/*", }, { "Sid": "S3PutObjectTaggingAccess", "Effect": "Allow", "Action": [ "s3:PutObjectTagging" ], "Resource": [ "arn:aws:s3:::<TLS_BUCKET>/*" # Replace * with your TLS bucket ] }
升级到 v3.0
如果您已经通过 Helm 安装了推理运算符,请使用以下命令进行升级:
helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm upgrade hyperpod-inference-operator . -n kube-system \ -f current-values.yaml --set image.tag=v3.0 # Verification kubectl get deployment hyperpod-inference-operator-controller-manager \ -n hyperpod-inference-system \ -o jsonpath='{.spec.template.spec.containers[0].image}'
Helm 到 EKS 插件迁移
如果在 3.0 版本之前通过 Helm 安装推理运算符,我们建议迁移到 EKS Add-on,以便及时更新将为推理运算符发布的新功能。此脚本将 SageMaker HyperPod 推理运算符从基于 Helm 的安装迁移到 EKS 附加组件安装。
概述:该脚本将集群名称和区域作为参数,检索现有的 Helm 安装配置,然后迁移到 EKS Add-on 部署。它为推理操作员、ALB 控制器和 KEDA 操作员创建了新的 IAM 角色。
在迁移推理运算符之前,该脚本会确保存在所需的依赖关系(S3 CSI 驱动程序、 FSx CSI 驱动程序、证书管理器和指标服务器)。如果它们不存在,它会将它们部署为附加组件。
推理运算符插件迁移完成后,该脚本还会迁移 S3、和其他依赖项(ALB、KEDA FSx、cert-manager、metrics-server),前提是它们最初是通过推理运算符 Helm 图表安装的。使用 --skip-dependencies-migration S3 CSI 驱动程序、 FSx CSI 驱动程序、证书管理器和指标服务器可以跳过此步骤。请注意,ALB 和 KEDA 作为插件的一部分安装在与推理运算符相同的命名空间中,并将作为推理运算符插件的一部分进行迁移。
重要
在迁移过程中,请勿部署新模型,因为在迁移完成之前不会部署新模型。推理运算符插件处于 ACTIVE 状态后,即可部署新模型。迁移时间通常需要 15 到 20 分钟,如果当前只部署了几个模型,则迁移可以在 30 分钟内完成。
迁移先决条件:
Amazon CLI 使用适当的凭据进行配置
kubectl 配置为可以访问你的 EKS 集群
头盔已安装
现有 Helm 安装的 hyperpod-inference-operator
注意
已在运行的端点在迁移过程中不会中断。在整个迁移过程中,现有端点将继续为流量提供服务,而不会中断。
获取迁移脚本:
git clone https://github.com/aws/sagemaker-hyperpod-cli.git cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator/migration
用法:
./helm_to_addon.sh [OPTIONS] \ --cluster-name <cluster-name> (Required) \ --region <region> (Required) \ --helm-namespace kube-system (Optional) \ --auto-approve (Optional) \ --skip-dependencies-migration (Optional) \ --s3-mountpoint-role-arn <s3-mountpoint-role-arn> (Optional) \ --fsx-role-arn <fsx-role-arn> (Optional)
选项:
--cluster-name NAME— EKS 集群名称(必填)--region REGION— Amazon 区域(必填)--helm-namespace NAMESPACE— 安装了 Helm 图表的命名空间(默认:kube-system)(可选)--s3-mountpoint-role-arn ARN— S3 Mountpoint CSI 驱动程序 IAM 角色 ARN(可选)--fsx-role-arn ARN— FSx CSI 驱动程序 IAM 角色 ARN(可选)--auto-approve— 如果启用了此标志,则跳过确认提示。step-by-step和auto-approve是互斥的,如果--auto-approve给出,则不指定--step-by-step(可选)--step-by-step— 在每个主要步骤之后暂停以进行复习。如果已经添加,--auto-approve则不应提及(可选)--skip-dependencies-migration— 跳过将 Helm 安装的依赖项迁移到附加组件。因为依赖关系不是通过 Inference Operator Helm 图表安装的,或者如果你想单独管理它们。 (可选)
示例:
基本迁移(迁移依赖关系):
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1
无需提示即可自动批准:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --auto-approve
跳过 S3 挂载点 FSx、证书管理器和指标服务器的依赖迁移:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --skip-dependencies-migration
提供现有的 S3 和 FSx IAM 角色:
./helm_to_addon.sh \ --cluster-name my-cluster \ --region us-east-1 \ --s3-mountpoint-role-arn arn:aws:iam::123456789012:role/s3-csi-role \ --fsx-role-arn arn:aws:iam::123456789012:role/fsx-csi-role
Backup 位置:
备份存储在 /tmp/hyperpod-migration-backup-<timestamp>/
备份可实现安全的迁移和恢复:
失败时回滚 — 如果迁移失败,脚本可以使用备份的配置自动将集群恢复到迁移前的状态
审计跟踪 — 提供迁移前存在内容的完整记录,以进行故障排除和合规性
配置参考-允许您比较迁移前和迁移后的配置
手动恢复-如果需要,您可以手动检查并恢复备份目录中的特定资源
回滚:
如果迁移失败,脚本会提示用户进行确认,然后再启动回滚以恢复先前的状态。
SageMaker HyperPod 推理发行说明:v2.3
新增功能
此版本在 “自定义资源定义” (CRDs) 中引入了新的可选字段,以增强部署配置的灵活性。
功能
-
多实例类型
-
增强的部署可靠性 — 支持多实例类型配置,当首选选项容量不足时,可自动故障转移到其他实例类型
-
智能资源调度 — 使用 Kubernetes 节点亲和性来确定实例类型的优先级,同时即使首选资源不可用也能保证部署
-
优化成本和性能 — 保持您的实例类型首选项,防止在集群波动期间出现与容量相关的故障
-
错误修复
规范invocationEndpoint中对字段的更改现在InferenceEndpointConfig将生效:
-
如果该
invocationEndpoint字段已修补或更新,则依赖资源(例如、Load Balancer 和 E SageMaker ndpoint)将通过标准化进行更新。IngressSageMakerEndpointRegistration -
invocationEndpoint提供的值将按原样存储在InferenceEndpointConfig规范本身中。当此值用于创建 Load Balancer 和(如果启用)E SageMaker ndpoint 时,它将被标准化为有一个前导正斜杠。-
v1/chat/completions将标准化为Ingress、AWS L/v1/chat/completionsoad Balancer 和 SageMaker 终端节点。对于SageMakerEndpointRegistration,它将在其规格中显示为v1/chat/completions。 -
///invoke将标准化为Ingress、AWS L/invokeoad Balancer 和 SageMaker 终端节点。对于SageMakerEndpointRegistration,它将在其规格中显示为invoke。
-
安装头盔:
关注:https://github.com/aws/sagemaker-hyperpod-cli/tree/main/helm_chart
如果你只专注于安装推理运算符,那么在第 1 步之后,也就是说Set Up Your Helm Environment,就这样做cd HyperPodHelmChart/charts/inference-operator。由于您位于推理运算符图表目录中,因此在命令中,无论您看到helm_chart/HyperPodHelmChart什么,都要替.换为。
如果已安装,请将 Operator 升级到 v2.3:
cd sagemaker-hyperpod-cli/helm_chart/HyperPodHelmChart/\ charts/inference-operator helm get values -n kube-system hyperpod-inference-operator \ > current-values.yaml helm upgrade hyperpod-inference-operator . \ -n kube-system \ -f current-values.yaml \ --set image.tag=v2.3