ML 容量块 - Amazon Elastic Compute Cloud
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

ML 容量块

适用于 ML 的容量块允许您在未来某个日期预留抢手的 GPU 实例,从而支持您的短期机器学习(ML)工作负载。在容量块内运行的实例会自动紧密放置在 Amazon EC2 UltraClusters 中,以实现低延迟、PB 级非阻塞联网。

使用容量块,您可以了解 GPU 实例容量在未来何时可用,并安排容量块在最适合您的时间启动。当您预留容量块时,您可以获得 GPU 实例的可预测容量保证,同时只需为所需的时间付费。如果您需要 GPU 一次支持几天或几周的 ML 工作负载,并且不想在未使用 GPU 实例时支付预留费用,我们建议您使用容量块。

以下是容量块的一些常见使用案例。

  • ML 模型训练和微调 - 无中断地访问您为完成 ML 模型训练和微调而预留的 GPU 实例。

  • ML 实验和原型 - 运行实验并构建需要短期 GPU 实例的原型。

容量块目前支持 p5.48xlargep5e.48xlargep4d.24xlargetrn1.32xlarge 实例。p5.48xlarge 实例在美国东部(弗吉尼亚州北部)和美国东部(俄亥俄州)区域提供。p5e.48xlarge 实例在美国东部俄亥俄州区域提供。p4d.24xlarge 实例已在美国东部(俄亥俄州)和美国西部(俄勒冈州)区域推出。trn1.32xlarge 实例已在亚太地区(墨尔本)区域推出。您可以预留容量块,预留开始时间最长为未来 8 周。

您可以使用容量块来预留 p5p5ep4dtrn1 实例,其预留期限和实例数量选项如下。

  • 预留持续时间:以 1 天为增量,最多 14 天;以 7 天为增量,最多 28 天

  • 预留实例数量选项包括 1、2、4、8、16、32 或 64 个实例

要预留容量块,首先要指定容量需求,包括所需的实例类型、实例数量、时间、最早开始日期和最晚结束日期。然后,您可以看到符合您要求的可用容量块产品。容量块产品包括开始时间、可用区和预留价格等详细信息。容量块产品的价格取决于产品交付时的供需情况。预留容量块后,价格不会改变。有关更多信息,请参阅 容量块定价和计费

当您购买容量块产品时,系统会根据您选择的日期和实例数创建预留。当容量块预留开始时,您可以通过在启动请求中指定预留 ID 来定位实例启动。

您可以在容量块结束时间前 30 分钟之前使用您预留的所有实例。在您的容量块预留还剩 30 分钟时,系统将开始终止在容量块中运行的所有实例。我们会利用这段时间清理您的实例,然后将容量块交付给下一个客户。预留的最后 30 分钟不计入容量块的价格。系统将在终止过程开始前 10 分钟通过 EventBridge 发布一个事件。有关更多信息,请参阅 使用 EventBridge 监控容量块

支持的平台

适用于 ML 的容量块目前支持具有默认租赁的 p5.48xlargep5e.48xlargep4d.24xlargetrn1.32xlarge 实例。当您使用 Amazon Web Services Management Console 购买容量块时,默认平台选项为 Linux/UNIX。当您使用 Amazon Command Line Interface(Amazon CLI)或 Amazon SDK 购买容量块时,可以使用以下平台选项:

  • Linux/Unix

  • Red Hat Enterprise Linux

  • 含有 HA 的 RHEL

  • SUSE Linux

  • Ubuntu Pro

注意事项

在使用容量块之前,请考虑以下细节和限制。

  • 容量块于协调世界时(UTC)上午 11:30 开始和结束。

  • 在容量块中运行的实例的终止过程从预留最后一天协调世界时(UTC)上午 11:00 开始。

  • 容量块的预留起始时间最长为未来 8 周。

  • 不允许修改和取消容量块。

  • 容量块不能跨 Amazon 账户或在 Amazon 组织内部共享。

  • 容量块不能在容量预留组中使用。

  • 在特定日期,Amazon 组织中所有账户的容量块中可预留的实例总数不能超过 64 个。

  • 要使用容量块,实例必须具体定位预留 ID。

  • 容量块中的实例不计入按需型实例限制。

  • 对于使用自定义 AMI 的 P5 实例,请确保拥有 EFA 所需的软件和配置

  • 对于 Amazon EKS 托管式节点组,请参阅创建带适用于机器学习的 Amazon EC2 容量块的托管式节点组。对于 Amazon EKS 自行管理的节点组,请参阅将适用于机器学习的容量块与自行管理的节点配合使用

创建容量块后,您可以使用容量块执行以下操作:

有关 Amazon ParallelCluster 的更多信息,请参阅什么是 Amazon ParallelCluster