为您的训练任务或 HyperPod 集群保留训练计划 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为您的训练任务或 HyperPod 集群保留训练计划

Amazon SageMaker 训练计划是一项功能,允许您为大规模 AI 模型训练工作负载预留 GPU 容量,并帮助最大限度地利用 GPU 容量。此功能允许访问备受追捧的实例类型,这些实例类型涵盖了一系列 GPU 加速计算选项,包括最新的 NVIDIA GPU 技术和 Trainium 芯片。 Amazon 通过 SageMaker 培训计划,您无需管理底层基础架构,即可在指定的时间表和预算内确保对这些高需求、高性能计算资源的可预测访问。这种灵活性对于应对为其任务关键型 AI 工作负载获取和安排这些超额订阅的计算实例的挑战的组织来说尤其有价值。

什么是 SageMaker 训练计划

SageMaker 培训计划允许您预留根据目标资源需求量身定制的计算容量,例如 SageMaker 训练作业或 SageMaker HyperPod 集群。该服务可自动处理预留、预置加速计算资源、基础架构设置、工作负载执行以及从基础设施故障中恢复。

SageMaker 训练计划由一个或多个预留容量块组成,每个区块由以下参数定义:

  • 特定实例类型

  • 实例数量

  • 可用区

  • 持续时间

  • 开始和结束时间

注意
  • 培训计划特定于其目标资源(Trainin SageMaker g Job 或 SageMaker HyperPod),不能互换。

  • 单个训练计划中的多个预留容量区块可能不连续。这意味着预留容量块之间可能存在间隙。

SageMaker 培训计划的好处

SageMaker 培训计划具有以下好处:

  • 可预测的访问权限:在指定时间范围内为您的机器学习工作负载保留 GPU 容量。

  • 成本管理:提前为大规模培训需求进行计划和预算。

  • 自动资源管理: SageMaker 培训计划负责基础设施的配置和管理。

  • 灵活性:为各种资源(包括 SageMaker 训练作业和 SageMaker HyperPod 集群)创建培训计划。

  • 容错:从 SageMaker AI 训练作业的基础设施故障中自动恢复和跨可用区的工作负载迁移中受益。

SageMaker 培训计划提前预约和灵活的开始时间

SageMaker 训练计划允许您提前预留计算容量,并具有灵活的开始时间和持续时间。

  • 提前预订:您可以在开始日期前 8 周(56 天)预订培训计划。

  • 最短交货时间: SageMaker 培训计划可能在预订后 30 分钟内开始提供,视供应情况而定。

    注意

    您可以搜索和购买在 30 分钟内即可访问的套餐。为确保及时激活,付款交易必须在所需开始时间前至少 5 分钟成功完成。例如,如果您希望计划在下午 2:00 开始,则可以最晚在下午 1:30 进行最后一刻的搜索,并在下午 1:55 之前完成购买,以确保计划在下午 2:00 之前准备就绪。

  • 预留持续时间和实例数量: SageMaker 培训计划允许您预留具有特定持续时间和数量选项的实例。有关给定 Amazon Web Services 区域、持续时间和数量选项中的可用实例类型,请参阅支持的实例类型 Amazon Web Services 区域和定价

  • 结束时间:训练计划总是在预约的最后一天世界标准时间上午 11:30 结束。

  • 训练计划终止:当预留容量还剩 30 分钟时, SageMaker 训练计划将启动终止该区块内任何正在运行的实例的过程,直到下一个预留容量变为活动状态。您保留对训练计划的完全访问权限,直到最后一个预留容量区块结束前 30 分钟。

SageMaker 培训计划用户工作流程

SageMaker 培训计划通过以下步骤起作用:

管理员步骤:

  1. 搜索和查看:查找符合您的计算要求的可用计划产品,例如实例类型、计数、开始时间和持续时间。

  2. 创建计划:使用所选计划课程的 ID 预订满足您需求的培训计划。

  3. 付款和计划:成功预付款后,计划状态变为Scheduled

计划用户/机器学习工程师的步骤:

  1. 资源分配:使用您的计划将 SageMaker AI 训练作业排队或分配给 SageMaker HyperPod 集群实例组。

  2. 激活:当计划开始日期到来时,它变为Active。根据可用的预留容量, SageMaker 培训计划会自动启动训练作业或配置实例组。

注意

当预留容量期开始Active时,培训计划的状态会从Scheduled变为,然后又过渡到等待下一个预留容量期开始Scheduled时。

下图全面概述了 SageMaker 培训计划如何与不同计划交互target resources,说明了计划的生命周期及其在 SageMaker 培训作业和 SageMaker HyperPod 集群资源分配中的作用。

  • Train@@ ing Job 的 SageMaker 训练计划:第一张图表说明了训练计划和 SageMaker Training Job 之间交互的工作 end-to-end流程。

    账单、带培训计划的容量预留和 Trainin SageMaker g Job。管理员和机器学习工程师管理的培训计划生命周期以及培训作业状态的插图。
  • SageMaker HyperPod集群训练计划:第二张图说明了训练计划和 SageMaker HyperPod 实例组之间交互 end-to-end的工作流程。

    账单、带培训计划的容量预留以及实例组管理工作流程。管理员和机器学习工程师管理的培训计划生命周期和实例组状态的插图。

支持的实例类型 Amazon Web Services 区域和定价

培训计划支持以下特定高性能实例类型的预留,每种类型均在精选实例中可用 Amazon Web Services 区域:

  • ml.p4d.24xlarge

  • ml.p5.48xlarge

  • ml.p5e.48xlarge

  • ml.p5en.48xlarge

  • ml.trn1.32xlarge

  • ml.trn2.48xlarge

注意

实例类型的可用性可能会随着时间的推移而发生变化。 up-to-date有关按地区划分的可用实例类型及其各自价格的更多信息,请参阅SageMaker 定价。向下滚动至按需定价下的 Amazon SageMaker HyperPod 灵活培训计划部分。选择一个区域以查看可用实例类型列表。

考虑到数据驻留要求和与其他 Amazon 服务的距离等因素,多个区域的可用性允许选择最合适的工作负载位置。

重要
  • 您可以使用 SageMaker 培训计划预留具有以下预留期限和实例数量选项的实例。

    • 预订时长以 1 天为增量提供,从 1 天到 182 天不等。

    • 预留实例数量选项为 1、2、4、8、16、32 或 64 个实例。

  • 确保您的训练任务或 HyperPod 服务配额允许每种实例类型的最大实例数超过计划中指定的实例数。要查看您当前的配额或申请增加配额,请参阅使用 Amazon 管理控制台查看 SageMaker 训练计划配额

SageMaker 训练计划搜索行为

在搜索培训计划产品时,即使在需求高且预留容量块稀缺的情况下, SageMaker 培训计划也使用以下方法来最大限度地提高用户的资源可用性和灵活性:

  • 初始持续搜索: SageMaker 培训计划首先尝试找到一个连续的预留容量块,该区块在开始和结束日期内与指定持续时间相匹配,同时满足所有其他指定标准,包括目标资源、请求的实例类型和实例数量。

  • 双块搜索:如果满足所有条件的单个连续预留容量区块不可用,则 SageMaker 训练计划不会返回 “无容量” 结果。相反,它会自动尝试使用两个单独的预留容量区块来完成请求,将总持续时间分成两个时间段。

    这种双块方法在资源分配方面提供了更大的灵活性,有可能保护原本不可用的高需求实例。

注意

SageMaker 培训计划最多返回三门课程,分为一两个部分。例如,对于持续时间为 48 小时的计划, SageMaker 训练计划可能提供包含两个 24 小时时段、一个连续 48 小时时段和两个持续时间不均匀的区块的计划。

注意事项

重要
  • 培训计划一经购买就无法修改。

  • 培训计划不能在不同 Amazon 账户之间或 Amazon 组织内共享。

  • 在搜索培训计划选项时, SageMaker 培训计划会根据以下内容调整其搜索策略:target resources

    对于 SageMaker HyperPod 集群

    • 产品仅限于单个可用区 (AZ)。

    • 这样可以确保集群内一致的网络性能和数据局部性。

    对于 SageMaker 培训工作

    • 产品可以跨越多个可用区。

    • 当计划产品包含多个不连续的预留容量时,这一点尤其重要。

    • 例如,计划可能包括一个预留容量区块在 AZ-A 中的容量和另一个预留容量块的 AZ-B 中的容量。 SageMaker 培训计划可以根据资源可用性自动在可用区 (AZs) 之间移动工作负载。

      这种用于训练作业的多可用区方法在资源分配方面提供了更大的灵活性,增加了为您的工作负载找到合适容量的机会。但是,您应该注意,在预订期的不同 AZs 时段,您的作业可能会以不同的方式运行。

  • 当用户看到双块产品时,应仔细考虑这种拆分分配是否符合他们的工作负载要求。这可能需要调整作业调度或工作量分配,以适应预留的非连续性。