为您的训练任务或 HyperPod 集群保留训练计划 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为您的训练任务或 HyperPod 集群保留训练计划

Amazon SageMaker 训练计划是一项功能,允许您为大规模 AI 模型训练工作负载预留 GPU 容量,并帮助最大限度地利用 GPU 容量。此功能允许访问备受追捧的实例类型,这些实例类型涵盖了一系列 GPU 加速的计算选项,包括最新的 NVIDIA GPU 技术和训练芯片。 Amazon 通过 SageMaker 培训计划,您无需管理底层基础架构,即可在指定的时间表和预算内确保对这些高需求、高性能计算资源的可预测访问。这种灵活性对于应对为其任务关键型 AI 工作负载获取和安排这些超额订阅的计算实例的挑战的组织来说尤其有价值。

什么是 SageMaker 培训计划

SageMaker 培训计划允许您预留根据目标资源需求量身定制的计算容量,例如 SageMaker 训练作业或 SageMaker HyperPod 集群。该服务可自动处理预留、加速计算资源的配置、基础架构设置、工作负载执行以及从基础设施故障中恢复。

SageMaker 训练计划由一个或多个预留容量块组成,每个区块由以下参数定义:

  • 特定实例类型

  • 实例数量

  • 可用区

  • 持续时间

  • 开始和结束时间

注意
  • 培训计划特定于其目标资源(Trainin SageMaker g Job 或 SageMaker HyperPod),不能互换。

  • 单个训练计划中的多个预留容量区块可能不连续。这意味着预留容量块之间可能存在间隙。

SageMaker 培训计划的好处

SageMaker 培训计划具有以下好处:

  • 可预测的访问权限:在指定时间范围内为您的机器学习工作负载保留 GPU 容量。

  • 成本管理:提前为大规模培训需求进行计划和预算。

  • 自动资源管理: SageMaker 培训计划负责基础设施的配置和管理。

  • 灵活性:为各种资源(包括 SageMaker 训练作业和 SageMaker HyperPod 集群)创建培训计划。

  • 容错:从 SageMaker AI 训练作业的基础设施故障中自动恢复和跨可用区的工作负载迁移中受益。

SageMaker 培训计划提前预约和灵活的开始时间

SageMaker 训练计划允许您提前预留计算容量,并具有灵活的开始时间和持续时间。

  • 提前预订:您可以在开始日期前 8 周(56 天)预订培训计划。

  • 最短交货时间: SageMaker 培训计划可能在预订后 30 分钟内开始提供,视供应情况而定。

    注意

    您可以搜索和购买在 30 分钟内即可访问的套餐。为确保及时激活,付款交易必须在所需开始时间前至少 5 分钟成功完成。例如,如果您希望计划在下午 2:00 开始,则可以最晚在下午 1:30 进行最后一刻的搜索,并在下午 1:55 之前完成购买,以确保计划在下午 2:00 之前准备就绪。

  • 预留持续时间和实例数量: SageMaker 培训计划允许您预留具有特定持续时间和数量选项的实例。有关给定 Amazon Web Services 区域、持续时间和数量选项中的可用实例类型,请参阅支持的实例类型 Amazon Web Services 区域和定价

  • 结束时间:训练计划总是在预约的最后一天世界标准时间上午 11:30 结束。

  • 训练计划终止:如果您使用训练作业作为目标资源,并且预留容量还剩 30 分钟,则 SageMaker 培训计划将启动终止该区块内任何正在运行的实例的过程,直到下一个预留容量变为活动状态。您保留对训练计划的完全访问权限,直到最后一个预留容量区块结束前 30 分钟。

    如果您的目标资源是 SageMaker HyperPod 群集,则此时间限制为一小时。

SageMaker 培训计划用户工作流程

SageMaker 培训计划通过以下步骤起作用:

管理员步骤:

  1. 搜索和查看:查找符合您的计算要求的可用计划产品,例如实例类型、计数、开始时间和持续时间。

  2. 创建计划:使用所选计划课程的 ID 预订满足您需求的培训计划。

  3. 付款和计划:成功预付款后,计划状态变为Scheduled

计划用户/机器学习工程师的步骤:

  1. 资源分配:使用您的计划将 SageMaker AI 训练作业排队或分配给 SageMaker HyperPod 集群实例组。

  2. 激活:当计划开始日期到来时,它变为Active。根据可用的预留容量, SageMaker 培训计划会自动启动训练作业或配置实例组。

注意

当预留容量期开始Active时,培训计划的状态会从Scheduled变为,然后又过渡到等待下一个预留容量期开始Scheduled时。

下图全面概述了 SageMaker 培训计划如何与不同计划交互target resources,说明了计划的生命周期及其在 SageMaker 培训作业和 SageMaker HyperPod 集群资源分配中的作用。

  • Train@@ ing Job 的 SageMaker 训练计划:第一张图表说明了训练计划和 SageMaker Training Job 之间交互的工作 end-to-end流程。

    账单、带培训计划的容量预留和 Trainin SageMaker g Job。管理员和机器学习工程师管理的培训计划生命周期以及培训作业状态的插图。
  • SageMaker HyperPod集群训练计划:第二张图说明了训练计划和 SageMaker HyperPod 实例组之间交互 end-to-end的工作流程。

    账单、带培训计划的容量预留以及实例组管理工作流程。管理员和机器学习工程师管理的培训计划生命周期和实例组状态的插图。

支持的实例类型 Amazon Web Services 区域和定价

培训计划支持以下特定高性能实例类型的预留,每种类型均在精选实例中可用 Amazon Web Services 区域:

  • ml.p4d.24xlarge

  • ml.p5.48xlarge

  • ml.p5e.48xlarge

  • ml.p5en.48xlarge

  • ml.trn1.32xlarge

  • ml.trn2.48xlarge

  • ml.p6-b200.48xlarge

  • ml.c6i-32xlargesc

UltraServers

  • ml.p6e-gb200.36xlarge

  • ml.p6e-gb200.72xlarge

注意

实例类型的可用性可能会随着时间的推移而发生变化。 up-to-date有关按地区划分的可用实例类型及其各自价格的更多信息,请参阅SageMaker 定价。向下滚动至按需定价下的 Amazon SageMaker HyperPod 灵活培训计划部分。选择一个区域以查看可用实例类型列表。

考虑到数据驻留要求和与其他 Amazon 服务的距离等因素,多个区域的可用性允许选择最合适的工作负载位置。

重要
  • 您可以使用 SageMaker 培训计划预留具有以下预留期限和实例数量选项的实例。

    • 预订时长以 1 天为增量提供,从 1 天到 182 天不等。

    • 预留实例数量选项为 1、2、4、8、16、32 或 64 个实例。

  • 确保您的训练任务或 HyperPod 服务配额允许每种实例类型的最大实例数超过计划中指定的实例数。要查看您当前的配额或申请增加配额,请参阅使用 Amazon 管理控制台查看 SageMaker 训练计划配额

UltraServers 在 SageMaker 人工智能中

UltraServers 在 SageMaker AI 中,提供了一组通过高带宽网络域互连的实例。例如,p6e-GB2 00 在一个 NVIDIA NVLink 域下最多可 UltraServer 连接 18 个p6e-gb200.36xlarge实例。每个实例 4 个 NVIDIA Blackwell GPUs ,每个 p6e-GB2 00 UltraServer 支持 72 个 GPUs,因此您可以在 AI 上以高性能运行最大的 AI 工作负载。 SageMaker

UltraServers 与 SageMaker AI 配合使用时,您可以将性能与 SageMaker AI 的托管基础架构、内置的故障弹性功能、集成的监控功能以及与其他 SageMaker AI 和 Amazon 服务的原生集成相结合。这种集成使您可以专注于模型开发和部署,而 SageMaker AI 则可以处理管理 AI 基础设施的无差别繁重工作。

注意

UltraServers 仅在达拉斯本地区域(us-east-1-dfw-2a)中可用,该区域是美国东部(弗吉尼亚北部)区域的延伸。有关更多信息,请参阅 Amazon Web Services 本地区域 s 入门

注意事项

UltraServers 与 SageMaker AI 一起使用时,请考虑以下几点:

  • 既可以 UltraServers 用于训练作业 SageMaker HyperPod,也可以用于 SageMaker 训练作业

  • 您只能购买 UltraServers 整套商品。有关实例和定价信息的更多信息,请参阅 Amazon A SageMaker I 定价中的亚马逊 SageMaker HyperPod 灵活培训计划。

  • 如果您使用的是和 UltraServers HyperPod,则 HyperPod 会自动为资源添加拓扑标签以帮助您分配资源。有关更多信息,请参阅在 Amazon 中使用拓扑感知调度。 SageMaker HyperPod

  • SageMaker AI 并 UltraServers 提供各种增强工作负载弹性的功能,包括先发制人检查以及自动故障检测和缓解。根据问题所在, SageMaker AI 可以运行操作来恢复您的工作负载,例如重启实例、用备件替换故障实例以及替换失败的实例。 UltraServers

  • 为了增加弹性,您可以将中的实例配置 UltraServer 为用作备件。将备用实例保留在内 UltraServer 可确保 SageMaker AI 能够快速响应实例故障,同时最大限度地减少对任务的任何影响。我们建议您为每个实例保留一个备用实例 UltraServer。您不必预留任何备用实例,但这可能会阻碍支持选项并减慢故障恢复速度。您可以 UltraServers 按整件购买,因此您保留的备件数量不会影响定价。

  • 要查看中的状态和实例 UltraServer,请使用 ListTrainingPlansAPI 操作或 Amazon 控制台查看训练计划。使用这些工具,您可以查看可用实例的总数、当前正在使用的实例、运行状况不佳的实例、配置的备用磁盘数量以及其他信息。可能的健康状态为okimpaired、和。insufficient-data

SageMaker 训练计划搜索行为

在搜索培训计划产品时,即使在需求高且预留容量块稀缺的情况下, SageMaker 培训计划也使用以下方法来最大限度地提高用户的资源可用性和灵活性:

  • 初始持续搜索: SageMaker 培训计划首先尝试找到一个连续的预留容量块,该区块在开始和结束日期内与指定持续时间相匹配,同时满足所有其他指定标准,包括目标资源、请求的实例类型和实例数量。

  • 双块搜索:如果满足所有条件的单个连续预留容量区块不可用,则 SageMaker 训练计划不会返回 “无容量” 结果。相反,它会自动尝试使用两个单独的预留容量区块来完成请求,将总持续时间分成两个时间段。

    这种双块方法在资源分配方面提供了更大的灵活性,有可能保护原本不可用的高需求实例。

注意

SageMaker 培训计划最多返回三门课程,分为一两个部分。例如,对于持续时间为 48 小时的计划, SageMaker 训练计划可能提供包含两个 24 小时时段、一个连续 48 小时时段和两个持续时间不均匀的区块的计划。

注意事项

重要
  • 培训计划一经购买就无法修改。

  • 培训计划不能在不同 Amazon 账户之间或 Amazon 组织内共享。

  • 在搜索培训计划选项时, SageMaker 培训计划会根据以下内容调整其搜索策略:target resources

    对于 SageMaker HyperPod 集群

    • 产品仅限于单个可用区 (AZ)。

    • 这样可以确保集群内一致的网络性能和数据局部性。

    对于 SageMaker 培训工作

    • 产品可以跨越多个可用区。

    • 当计划产品包含多个不连续的预留容量时,这一点尤其重要。

    • 例如,计划可能包括一个预留容量区块在 AZ-A 中的容量和另一个预留容量块的 AZ-B 中的容量。 SageMaker 培训计划可以根据资源可用性自动在可用区 (AZs) 之间移动工作负载。

      这种用于训练作业的多可用区方法在资源分配方面提供了更大的灵活性,增加了为您的工作负载找到合适容量的机会。但是,您应该注意,在预订期的不同 AZs 时段,您的作业可能会以不同的方式运行。

  • 当用户看到双块产品时,应仔细考虑这种拆分分配是否符合他们的工作负载要求。这可能需要调整作业调度或工作量分配,以适应预留的非连续性。