本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
用于成本归因的使用情况报告 SageMaker HyperPod
SageMaker HyperPod EKS 编排集群中的使用情况报告可提供计算资源消耗的精细可见性。该功能可让组织实现透明的成本归因,并根据团队、项目或部门的实际使用情况将集群成本分配给它们。通过跟踪 GPU/CPU 工时和 Neuron Core 利用率等指标(在团队级聚合和任务特定细分中捕获),使用情况报告补充 HyperPod了任务治理功能,通过以下方式确保共享多租户集群中的公平成本分配:
-
消除成本分配中的猜测性
-
将费用与可量化的资源消耗直接关联
-
在共享基础设施环境中,实施基于使用情况的问责制
先决条件
要使用此功能,请执行以下操作:
-
您需要:
-
具有正在运行的 EKS 编排集群的活跃SageMaker HyperPod 环境。
-
(强烈推荐)使用计算资源配额和优先级规则配置的任务治理。有关设置说明,请参阅任务治理设置。
-
-
熟悉以下核心概念:
-
分配的计算资源配额:根据团队的任务治理策略中的预定义配额为团队预留资源。这是为其工作负载提供的有保障的容量。
-
借入的计算资源:共享集群池中的空闲资源,团队可在其已分配的配额之外临时使用这些资源。借入的计算资源是根据任务治理策略中的优先级规则和未使用资源的可用性动态分配的。
-
计算资源使用情况:团队消耗的资源(GPU、CPU、Neuron Core 小时数)的计量与追踪机制如下:
-
已分配资源的利用率:团队配额内的使用情况。
-
已借入资源的利用率:超出配额的使用量,取自共享池。
-
-
成本归因:根据团队实际的计算资源使用情况,将集群成本分配给团队的过程,该使用情况既包括团队在其预定义配额内消耗的资源,也包括从共享集群池临时使用、超出其配额的资源。
-
报告类型
HyperPod的使用情况报告提供了不同的操作粒度:
-
摘要报告提供组织范围内对计算使用情况的可见性,汇总每个团队(命名空间)的总GPU/CPU/Neuron核心小时数,同时区分常规使用情况(来自团队分配配额的资源)和借用的计算(共享池的溢出容量)。
-
详细报告提供按团队划分的任务级别细分,跟踪运行特定任务所花费的精确计算小时数,包括抢占任务、每小时利用率模式和命名空间特定的分配。
重要
HyperPod 使用情况报告跟踪集群中所有 Kubernetes 命名空间的计算利用率,包括由任务治理管理管理的命名空间、默认命名空间以及在任务治理之外创建的命名空间(例如,通过直接 Kubernetes API 调用或外部工具)创建的命名空间。此基础设施级别的监控可确保实现全面的、基于使用情况的问责制,无论命名空间的管理方式如何,都能避免共享集群在成本归因方面出现漏洞。
报告格式和时间范围
使用生成报告中提供的 Python 脚本,管理员可以按需生成 CSV 或 PDF 格式的使用情况报告,并选择从每日快照到 180 天(6 个月)历史时段的时间范围。
注意
在设置报告基础设施时,可以将历史时段配置为超出默认的 180 天最长时限。有关配置数据保留期的更多信息,请参阅使用安装使用情况报告基础架构 CloudFormation
说明性使用案例
此功能可解决多租户 AI/ML 环境中的关键场景,例如:
-
共享集群的成本分配:管理员管理由 20 个训练生成式 AI 模型的团队共享的 HyperPod 集群。利用摘要使用情况报告,他们分析了 180 天内的每日 GPU 利用率,发现团队 A 在特定实例类型上消耗了 200 个 GPU 小时,其中,170 个 GPU 小时用于分配的配额,30 个 GPU 小时用于借入的计算资源。管理员根据此报告的使用情况向团队 A 开具发票。
-
审计和争议解决:财务团队对成本归属的准确性提出质疑,并指出存在不一致之处。管理员可以导出详细的任务级别报告来审计差异。此报告通过交叉比对时间戳、实例类型及团队命名空间内被抢占作业,透明地核验了存在争议的使用情况数据。