本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
任务管理设置
本节包含有关如何设置 Amazon SageMaker HyperPod 任务管理 EKS 插件的信息。这包括授予权限,允许您设置任务优先级、团队的计算分配、闲置计算的共享方式以及团队的任务抢占方式。
如果您在设置时遇到问题,请参阅以故障排除获取已知的故障排除解决方案。
Kueue 设置
HyperPod 任务治理 EKS 插件为您的 EKS 集群安装 Kueue
| EKS HyperPod 任务治理附加版本 | 作为插件一部分安装的 Kueue 版本 |
|---|---|
|
v1.1.3 |
v0.12.0 |
注意
Kueue v.012.0 及更高版本不包含 kueue-rbac-proxy在安装中。可能已经 kueue-rbac-proxy安装了以前的版本。例如,如果你使用的是 Kueue v0.8.1,那么你可能有 v0.18.1。 kueue-rbac-proxy
HyperPod 任务治理利用 Kueue 进行 Kubernetes 原生作业队列、调度和配额管理,并与任务治理 EKS 插件一起安装。 HyperPod 安装后, HyperPod会创建和修改 SageMaker 人工智能管理的 Kubernetes 资源KueueManagerConfig,例如、、、ClusterQueues、LocalQueues和。WorkloadPriorityClasses ResourceFlavors ValidatingAdmissionPolicies虽然 Kubernetes 管理员可以灵活地修改这些资源的状态,但对 SageMaker AI 管理的资源所做的任何更改都可能被服务更新和覆盖。
以下信息概述了 HyperPod 任务管理插件用于设置 Kueue 的配置设置。
apiVersion: config.kueue.x-k8s.io/v1beta1 kind: Configuration health: healthProbeBindAddress: :8081 metrics: bindAddress: :8443 enableClusterQueueResources: true webhook: port: 9443 manageJobsWithoutQueueName: false leaderElection: leaderElect: true resourceName: c1f6bfd2.kueue.x-k8s.io controller: groupKindConcurrency: Job.batch: 5 Pod: 5 Workload.kueue.x-k8s.io: 5 LocalQueue.kueue.x-k8s.io: 1 ClusterQueue.kueue.x-k8s.io: 1 ResourceFlavor.kueue.x-k8s.io: 1 clientConnection: qps: 50 burst: 100 integrations: frameworks: - "batch/job" - "kubeflow.org/mpijob" - "ray.io/rayjob" - "ray.io/raycluster" - "jobset.x-k8s.io/jobset" - "kubeflow.org/mxjob" - "kubeflow.org/paddlejob" - "kubeflow.org/pytorchjob" - "kubeflow.org/tfjob" - "kubeflow.org/xgboostjob" - "pod" - "deployment" - "statefulset" - "leaderworkerset.x-k8s.io/leaderworkerset" podOptions: namespaceSelector: matchExpressions: - key: kubernetes.io/metadata.name operator: NotIn values: [ kube-system, kueue-system ] fairSharing: enable: true preemptionStrategies: [LessThanOrEqualToFinalShare, LessThanInitialShare] resources: excludeResourcePrefixes: []
有关每个配置条目的更多信息,请参阅 Kueue 文档中的配置
HyperPod 任务管理先决条件
-
请确保您拥有 HyperPod 集群管理员的最低权限策略,请参阅集群管理员的 IAM 用户。这包括运行 SageMaker HyperPod 核心 APIs、管理您的 SageMaker HyperPod Amazon Web Services 账户集群和在中执行任务的权限管理由 Amazon EKS 编排的 SageMaker HyperPod 集群。
-
你需要有 Kubernetes 版本 >= 1.30。有关说明,请参阅将现有集群更新到新的 Kubernetes 版本。
-
如果你已经在他们的集群中安装了 Kueue,请在安装 EKS 插件之前卸载 Kueue。
-
在安装 HyperPod 任务治理插件之前,EKS 集群中必须已经存在一个 HyperPod 节点。
HyperPod 任务管理设置
以下内容提供了有关如何设置 HyperPod任务管理的信息。
如果安装成功,则可以在 HyperPod SageMaker AI 控制台中查看 “策略” 选项卡。您也可以使用以下示例 describe-addon
aws eks describe-addon --regionregion--cluster-namecluster-name--addon-name amazon-sagemaker-hyperpod-taskgovernance