本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
报告详细信息与数据细分
SageMaker HyperPod的使用情况报告为分析计算资源消耗提供了两个不同的视角:用于成本分配的摘要报告和用于精细审计的详细报告。摘要报告会按团队或命名空间汇总集群范围内的使用情况,重点呈现 GPU、CPU 和 Neuron Core 资源中,已分配的计算资源与已借入的计算资源的使用趋势对比情况。详细报告会深入分析单个任务,并公开执行时段、任务状态、优先级类利用率等指标。在此部分中,我们将细分这些报告的结构,了解其关键指标,并演示管理员与财务团队如何将摘要趋势数据与任务级数据进行交叉比对,从而验证成本归属的准确性、解决差异问题,并优化共享基础设施。
常见报告标头
摘要报告和详细报告都包含以下元数据,以便为使用情况数据提供背景信息:
-
ClusterName:消耗资源的 EKS 编排的 Hyperpod 集群名称。
-
类型:报告类别(
Summary Utilization Report或Detailed Utilization Report)。 -
生成日期:报告的创建时间(例如
2025-04-18)。 -
日期范围(UTC):涵盖的时间范围(例如
2025-04-16 to 2025-04-18)。 -
数据缺失时段:因集群停机时间或监控问题(例如
2025-04-16 00:00:00 to 2025-04-19 00:00:00)而导致的数据收集缺口。
摘要报告
摘要报告按日提供跨团队/命名空间的计算资源消耗的高级概览,并按实例类型区分已分配资源(预留配额)和已借入资源(已借出池)的使用情况。这些报告非常适用于发票生成、成本归属说明或容量预测场景。
示例:摘要报告可能显示团队 A 使用了 200 个 GPU 小时,其中 170 个小时来自其已分配的配额,30 个小时是借入的。
以下是摘要报告中关键列的结构化细分:
-
日期:报告的使用情况的日期(例如
2025-04-18)。 -
命名空间:与团队关联的 Kubernetes 命名空间(例如
hyperpod-ns-ml-team)。 -
球队:The Owning team/department (例如,
ml-team)。 -
实例类型:所使用的计算实例(例如,ml.g5.4xlarge)。
-
Total/Allocated/Borrowed利用率(小时数):按类别划分的 GPU、CPU 或神经元核心使用情况。
其中:
-
总利用率 = 已分配的资源的利用率 + 已借入的资源的利用率
-
已分配的资源的利用率意指团队实际使用的 GPU、CPU 或 Neuron Core 小时数,其上限为其已分配的配额的 100%。
-
已借入的资源的利用率意指团队超出其已分配的配额后,根据任务治理优先级规则和资源可用性,从共享集群池中实际消耗的 GPU、CPU 或 Neuron Core 小时数。
-
示例:共 72 个 GPU 小时(48 个小时来自已分配的配额,24 个小时是借入的)。
注意
对于未由任务治理管理的命名空间,仅显示总利用率。
详细报告
详细报告可提供计算资源使用情况的深度洞察,按任务细分资源消耗情况,展示各种精细化指标,例如任务执行时段、状态(例如“成功”、“失败”)以及优先级类使用情况。这些报告非常适用于账单差异验证,或确保符合治理策略要求。
以下是详细报告中关键列的结构化细分:
-
日期:报告的使用情况的日期(例如
2025-04-18)。 -
时段开始/结束:任务的确切执行时段(UTC)(例如
19:54:34)。 -
命名空间:与团队关联的 Kubernetes 命名空间(例如
hyperpod-ns-ml-team)。 -
球队:The Owning team/department (例如,
ml-team)。 -
任务:作业/容器组(pod)的标识符(例如
pytorchjob-ml-pytorch-job-2p5zt-db686)。 -
实例:使用的计算实例(例如
ml.g5.4xlarge)。 -
状态:任务结果(成功、失败、已抢占)。
-
总利用率:GPU、CPU 或 Neuron Core 资源的消耗总量(小时数和实例数)。
-
优先级类:分配的优先级层(例如 training-priority)。