使用 HyperPod 训练操作员 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 HyperPod 训练操作员

Amazon SageMaker HyperPod 训练运营商通过高效管理跨大型 GPU 集群的分布式训练,帮助您加快生成式 AI 模型的开发。它引入了智能故障恢复、挂起作业检测和进程级管理功能,可最大限度地减少训练中断并降低成本。与发生故障时需要完全重启作业的传统训练基础设施不同,此操作符会精确执行流程恢复,以保持训练作业顺利运行。

操作员还可以使用 HyperPod运行状况监控和可观察性功能,提供训练执行的实时可见性,并自动监控损失峰值和吞吐量下降等关键指标。无需更改代码,即可通过简单的 YAML 配置定义恢复策略,从而快速响应无法恢复的训练状态并协助完成恢复。这些监控和恢复功能协同工作,可以保持最佳训练性能,同时最大限度地减少运营开销。

虽然此训练操作符不需要 Kueue,但您的集群管理员可以安装和配置它以增强作业调度能力。有关更多信息,请参阅 Kueue 的官方文档

注意

要使用培训操作员,必须使用最新的 HyperPod AMI 版本。要升级,请使用 UpdateClusterSoftwareAPI 操作。如果您使用 HyperPod 任务管理,则它还必须是最新版本。

支持的版本

HyperPod 训练操作员只能使用特定版本的 Kubernetes、Kueue 和。 HyperPod有关可兼容版本的完整列表,请参阅下面的列表。

注意

我们收集某些常规汇总和匿名的运营指标,以提供基本的服务可用性。这些指标的创建是完全自动化的,不需要对底层模型训练工作负载进行人工审查。这些指标与作业操作、资源管理和基本服务功能有关。