本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
为您的训练任务或 HyperPod 集群保留训练计划
Amazon SageMaker 训练计划是一项功能,允许您为大规模 AI 模型训练工作负载预留 GPU 容量,并帮助最大限度地利用 GPU 容量。此功能允许访问备受追捧的实例类型,这些实例类型涵盖了一系列 GPU 加速的计算选项,包括最新的 NVIDIA GPU 技术和trainium 芯片。Amazon通过 SageMaker 培训计划,您无需管理底层基础架构,即可在指定的时间表和预算内确保对这些高需求、高性能计算资源的可预测访问。对于那些需要应对在为其关键任务 AI 工作负载获取并调度这些超额订阅的计算实例方面的挑战的组织而言,这种灵活性非常有用。
什么是 SageMaker 培训计划
SageMaker 培训计划允许您预留根据目标资源需求量身定制的计算容量,例如 SageMaker 训练作业或 SageMaker HyperPod 集群。该服务会自动处理预留、加速计算资源的预调配、基础设施设置、工作负载执行以及基础设施故障恢复。
SageMaker 训练计划由一个或多个预留容量块组成,每个区块由以下参数定义:
-
特定实例类型
-
实例数量
-
可用区
-
Duration
-
开始和结束时间
注意
-
培训计划特定于其目标资源(Trainin SageMaker g Job 或 SageMaker HyperPod),不能互换。
-
单个训练计划中的多个预留容量块可能是不连续的。这意味着预留容量块之间可能存在间隙。
SageMaker 培训计划的好处
SageMaker 培训计划具有以下好处:
-
可预测的访问权限:在指定时间段内为您的机器学习工作负载预留 GPU 容量。
-
成本管理:提前为大型训练需求制定计划和预算。
-
自动资源管理: SageMaker 培训计划负责基础设施的配置和管理。
-
灵活性:为各种资源(包括 SageMaker 训练作业和 SageMaker HyperPod 集群)创建培训计划。
-
容错:从 SageMaker AI 训练作业的基础设施故障中自动恢复和跨可用区的工作负载迁移中受益。
SageMaker 培训计划提前预约和灵活的开始时间
SageMaker 训练计划允许您提前预留计算容量,并具有灵活的开始时间和持续时间。
-
提前预留:您可以在开始日期前 8 周(56 天)为训练计划预留资源。
-
最短交货时间: SageMaker 培训计划可能在预订后 30 分钟内开始提供,视供应情况而定。
注意
您可以搜索并购买支持 30 分钟内启动的计划。要确保及时激活,付款交易必须在所需的开始时间前至少 5 分钟成功完成。例如,如果您希望计划在下午 2:00 启动,最晚可在下午 1:30 进行即时搜索,并需在下午 1:55 前完成购买,以确保该计划能在下午 2:00 前准备就绪。
-
预留持续时间和实例数量: SageMaker 培训计划允许您预留具有特定持续时间和数量选项的实例。有关给定Amazon Web Services 区域、持续时间和数量选项中的可用实例类型,请参阅支持的实例类型、Amazon Web Services 区域和定价。
-
结束时间:训练计划始终在预留期最后一天的上午 11:30(UTC)结束。
-
训练计划终止:如果您使用训练作业作为目标资源,并且预留容量还剩 30 分钟,则 SageMaker 培训计划将启动终止该区块内任何正在运行的实例的过程,直到下一个预留容量变为活动状态。在最后一个预留容量块结束时间的 30 分钟前,您都对自己的训练计划拥有完全访问权限。
如果您的目标资源是 SageMaker HyperPod 群集,则此时间限制为一小时。
SageMaker 培训计划用户工作流程
SageMaker 培训计划通过以下步骤起作用:
适用于管理员的步骤:
-
搜索和查看:查找符合您的计算要求的可用计划产品,例如实例类型、计数、开始时间和持续时间。
-
创建计划:使用所选计划产品 ID 预留可满足您需求的训练计划。
-
付款和计划:预付款成功后,计划状态会变为
Scheduled。
适用于计划用户/机器学习工程师的步骤:
-
资源分配:使用您的计划将 SageMaker AI 训练作业排队或分配给 SageMaker HyperPod 集群实例组。
-
激活:当计划开始日期到来时,它会变为
Active。根据可用的预留容量, SageMaker 培训计划会自动启动训练作业或配置实例组。
注意
当预留容量期开始时,训练计划的状态会从 Scheduled 过渡到 Active,随后,当等待下一个预留容量期开始时,状态会恢复为 Scheduled。
下图全面概述了 SageMaker 培训计划如何与不同计划交互target resources,说明了计划的生命周期及其在 SageMaker 培训作业和 SageMaker HyperPod 集群资源分配中的作用。
-
Train@@ ing Job 的 SageMaker 训练计划:第一张图表说明了训练计划和 SageMaker Training Job 之间交互的工作 end-to-end流程。
-
SageMaker HyperPod集群训练计划:第二张图说明了训练计划和 SageMaker HyperPod 实例组之间交互 end-to-end的工作流程。
支持的实例类型、Amazon Web Services 区域和定价
训练计划支持为以下特定高性能实例类型进行预留,每种实例类型仅在选定 Amazon Web Services 区域提供:
-
ml.p4d.24xlarge
-
ml.p5.48xlarge
-
ml.p5e.48xlarge
-
ml.p5en.48xlarge
-
ml.trn1.32xlarge
-
ml.trn2.48xlarge
-
ml.p6-b200.48xlarge
-
ml.c6i-32xlargesc
UltraServers
-
ml.p6e-gb200.36xlarge
-
ml.p6e-gb200.72xlarge
注意
实例类型的可用性可能会随时间发生变化。 up-to-date有关按地区划分的可用实例类型及其各自价格的更多信息,请参阅SageMaker 定价
跨多个区域的可用性使用户能够为工作负载选择最合适的位置,同时可考量数据驻留要求以及与其他 Amazon 服务的地理邻近性等因素。
重要
-
您可以使用 SageMaker 培训计划预留具有以下预留期限和实例数量选项的实例。
-
预留持续时间以 1 天为增量单位,可选范围为 1 天至 182 天。
-
预留实例数量选项包括 1、2、4、8、16、32 或 64 个实例。
-
-
确保您的训练任务或 HyperPod 服务配额允许每种实例类型的最大实例数超过计划中指定的实例数。要查看当前配额或请求提高配额,请参阅使用Amazon管理控制台查看 SageMaker 训练计划配额。
UltraServers 在 SageMaker 人工智能中
UltraServers 在 SageMaker AI 中,提供了一组通过高带宽网络域互连的实例。例如,p6e-GB2 00 在一个 NVIDIA NVLink 域下最多可 UltraServer 连接 18 个p6e-gb200.36xlarge实例。每个实例 4 个 NVIDIA Blackwell GPUs ,每个 p6e-GB2 00 UltraServer 支持 72 个 GPUs,因此您可以在 AI 上以高性能运行最大的 AI 工作负载。 SageMaker
UltraServers 与 SageMaker AI 配合使用时,您可以将性能与 SageMaker AI 的托管基础架构、内置的故障弹性功能、集成的监控功能以及与其他 SageMaker AI 和Amazon服务的原生集成相结合。这种集成使您可以专注于模型开发和部署,而 SageMaker AI 则可以处理管理 AI 基础设施的无差别繁重工作。
注意
UltraServers 仅在达拉斯本地区域(us-east-1-dfw-2a)中可用,该区域是美国东部(弗吉尼亚北部)区域的延伸。有关更多信息,请参阅 Amazon Web Services 本地区域s 入门
注意事项
UltraServers 与 SageMaker AI 一起使用时,请考虑以下几点:
-
您可以同时 UltraServers 用于 SageMaker 训练 SageMaker HyperPod作业。
-
您只能购买 UltraServers 整套商品。有关实例和定价信息的更多信息,请参阅 Amazon A SageMaker I 定价中的亚马逊 SageMaker HyperPod
灵活培训计划。 -
如果您使用的是和 UltraServers HyperPod,则 HyperPod 会自动为资源添加拓扑标签以帮助您分配资源。有关更多信息,请参阅在 Amazon 中使用拓扑感知调度。 SageMaker HyperPod
-
SageMaker AI 并 UltraServers 提供各种增强工作负载弹性的功能,包括先发制人检查以及自动故障检测和缓解。根据问题所在, SageMaker AI 可以运行操作来恢复您的工作负载,例如重启实例、用备件替换故障实例以及替换失败的实例。 UltraServers
-
为了增加弹性,您可以将中的实例配置 UltraServer 为用作备件。将备用实例保留在内 UltraServer 可确保 SageMaker AI 能够快速响应实例故障,同时最大限度地减少对任务的任何影响。我们建议您为每个实例保留一个备用实例 UltraServer。您无需预留任何备用实例,但这可能会限制支持选项,并减慢故障恢复速度。您可以 UltraServers 按整件购买,因此您保留的备件数量不会影响定价。
-
要查看中的状态和实例 UltraServer,请使用 ListTrainingPlansAPI 操作或Amazon控制台查看训练计划。利用这些工具,您可以查看可用实例总数、当前正在使用的实例数、运行状况不佳的实例数、配置的备用实例数以及其他信息。可能的运行状况为
ok、impaired和insufficient-data。
SageMaker 训练计划搜索行为
在搜索培训计划产品时,即使在需求高且预留容量块稀缺的情况下, SageMaker 培训计划也使用以下方法来最大限度地提高用户的资源可用性和灵活性:
-
初始持续搜索: SageMaker 培训计划首先尝试找到一个连续的预留容量块,该区块在开始和结束日期内与指定持续时间相匹配,同时满足所有其他指定标准,包括目标资源、请求的实例类型和实例数量。
-
双块搜索:如果满足所有条件的单个连续预留容量区块不可用,则 SageMaker 训练计划不会返回 “无容量” 结果。相反,它会自动尝试通过两个独立的预留容量块来满足请求,并将总持续时间拆分到两个时间段中。
这种双块搜索方法可提升资源分配的灵活性,并帮助获取原本可能无法获得的高需求实例。
注意
SageMaker 培训计划最多返回三门课程,分为一两个部分。例如,对于持续时间为 48 小时的计划, SageMaker 训练计划可能提供包含两个 24 小时时段、一个连续 48 小时时段和两个持续时间不均匀的区块的计划。
注意事项
重要
-
训练计划一经购买便无法修改。
-
培训计划不能在不同Amazon账户之间或Amazon组织内共享。
-
在搜索培训计划选项时, SageMaker 培训计划会根据以下内容调整其搜索策略:target resources
对于 SageMaker HyperPod 集群:
-
产品仅限于单个可用区(AZ)。
-
这可确保集群内一致的网络性能和数据局部性。
对于 SageMaker 培训工作:
-
产品可以跨越多个可用区。
-
当计划产品包含多个不连续的预留容量时,这一点尤为重要。
-
例如,计划可能包括一个预留容量区块在 AZ-A 中的容量和另一个预留容量块的 AZ-B 中的容量。 SageMaker 培训计划可以根据资源可用性自动在可用区 (AZs) 之间移动工作负载。
这种用于训练作业的多可用区方法提升了资源分配的灵活性,并增加了为您的工作负载找到合适容量的几率。但是,您应该注意,在预订期的不同 AZs 时段,您的作业可能会以不同的方式运行。
-
-
当使用双块产品时,用户应仔细考量这种拆分式分配是否能满足其工作负载需求。这可能需要调整作业调度或工作负载分配,以适应预留的非连续性特征。