用于成本归因的使用情况报告 SageMaker HyperPod - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

用于成本归因的使用情况报告 SageMaker HyperPod

SageMaker HyperPod EKS 编排集群中的使用情况报告可提供计算资源消耗的精细可见性。该功能允许组织实施透明的成本归属,根据团队、项目或部门的实际使用情况将集群成本分配给团队、项目或部门。通过跟踪 GPU/CPU 小时数和 Neuron Core 利用率等指标(在团队级聚合和任务特定细分中捕获),使用情况报告补充 HyperPod了任务治理功能,通过以下方式确保共享多租户集群中的公平成本分配:

  • 消除成本分配中的猜测

  • 直接将支出与可衡量的资源消耗联系起来

  • 在共享基础架构环境中实施基于使用情况的问责制

先决条件

要使用此功能,请执行以下操作:

  • 你需要:

    • 具有正在运行的 EKS 编排集群的活跃SageMaker HyperPod 环境

    • (强烈推荐)使用计算配额和优先级规则配置任务治理。有关设置说明,请参阅任务管理设置

  • 熟悉以下核心概念:

    • 分配的计算配额:根据任务管理策略中的预定义配额为团队保留的资源。这是他们工作负载的有保障的容量

    • 借用的计算:共享集群池中的闲置资源,团队可以在分配的配额之外临时使用这些资源。借用的计算是根据任务管理策略中的优先级规则和未使用资源的可用性动态分配的。

    • 计算使用率:对团队消耗的资源(GPU、CPU、Neuron Core 小时数)的衡量值,跟踪方式为:

      • 分配的利用率:团队配额内的使用情况。

      • 借用利用率:超出配额的使用量,从共享池中提取。

    • 成本归因:根据团队的实际计算使用情况向其分配集群成本的过程,包括预定义配额内消耗的资源和超出其配额的共享集群池中临时使用的资源。

报告类型

HyperPod的使用情况报告提供了不同的操作粒度:

  • 摘要报告提供组织范围内对计算使用情况的可见性,汇总每个团队(命名空间)的总GPU/CPU/Neuron核心小时数,同时区分常规使用情况(来自团队分配配额的资源)和借用的计算(共享池的溢出容量)。

  • 详细报告提供按团队划分的任务级别细分,跟踪运行特定任务所花费的精确计算时间,包括抢占式任务、每小时使用模式和特定命名空间的分配。

重要

HyperPod 使用情况报告跟踪集群中所有 Kubernetes 命名空间的计算利用率,包括由任务治理管理管理的命名空间、默认命名空间以及在任务治理之外创建的命名空间(例如,通过直接 Kubernetes API 调用或外部工具)创建的命名空间。这种基础设施级别的监控可确保全面的基于使用情况的问责制,无论如何管理命名空间,都可以防止共享集群的成本归因出现差距。

报告格式和时间范围

使用中提供的 Python 脚本生成报告,管理员可以按需生成 CSV 或 PDF 格式的使用情况报告,选择从每日快照到 180 天(6 个月)历史窗口的时间范围。

注意

设置报告基础架构时,您可以将历史窗口配置为超出默认的最大值 180 天。有关配置数据保留期的更多信息,请参阅使用安装使用情况报告基础架构 CloudFormation

说明性用例

此功能可解决多租户 AI/ML 环境中的关键场景,例如:

  1. 共享集群的成本分配:管理员管理由 20 个训练生成式 AI 模型的团队共享的 HyperPod 集群。他们使用摘要使用情况报告分析了 180 天内的每日 GPU 使用率,发现团队 A 在特定实例类型上消耗了 200 个 GPU 小时,其中 170 个小时来自分配的配额,30 个来自借用的计算。管理员根据报告的使用情况向 A 组开具发票。

  2. 审计和争议解决:财务团队以不一致为由质疑成本归因的准确性。管理员可以导出详细的任务级报告来审计差异。通过交叉引用团队命名空间内的时间戳、实例类型和抢占作业,该报告可以透明地协调有争议的使用数据。