SageMaker HyperPod任务治理 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

SageMaker HyperPod任务治理

SageMaker HyperPod 任务治理是一个强大的管理系统,旨在简化资源分配,并确保在 Amazon EKS 集群中跨团队和项目高效利用计算资源。这为管理员提供了设置以下内容的能力:

  • 各种任务的优先级别

  • 计算每支队伍的分配

  • 每个团队如何借出和借用闲置计算

  • 如果一支队伍抢占了自己的任务

HyperPod 任务管理还提供 Amazon EKS 集群可观察性,提供对集群容量的实时可见性。这包括计算可用性和使用率、团队分配和利用率以及任务运行和等待时间信息,使您能够做出明智的决策和主动的资源管理。

以下各节介绍如何设置、理解关键概念以及如何对您的 Amazon EKS 集群使用 HyperPod 任务管理。