ML 容量块
适用于 ML 的容量块允许您在未来某个日期预留抢手的 GPU 实例,从而支持您的短期机器学习(ML)工作负载。在容量块内运行的实例会自动紧密放置在 Amazon EC2 UltraClusters
使用容量块,您可以了解 GPU 实例容量在未来何时可用,并安排容量块在最适合您的时间启动。当您预留容量块时,您可以获得 GPU 实例的可预测容量保证,同时只需为所需的时间付费。如果您需要 GPU 一次支持几天或几周的 ML 工作负载,并且不想在未使用 GPU 实例时支付预留费用,我们建议您使用容量块。
以下是容量块的一些常见使用案例。
-
ML 模型训练和微调 - 无中断地访问您为完成 ML 模型训练和微调而预留的 GPU 实例。
-
ML 实验和原型 - 运行实验并构建需要短期 GPU 实例的原型。
容量块目前支持 p5.48xlarge
、p5e.48xlarge
、p4d.24xlarge
和 trn1.32xlarge
实例。p5.48xlarge
实例在美国东部(弗吉尼亚州北部)和美国东部(俄亥俄州)区域提供。p5e.48xlarge
实例在美国东部俄亥俄州区域提供。p4d.24xlarge
实例已在美国东部(俄亥俄州)和美国西部(俄勒冈州)区域推出。trn1.32xlarge
实例已在亚太地区(墨尔本)区域推出。您可以预留容量块,预留开始时间最长为未来 8 周。
您可以使用容量块来预留 p5
、p5e
、p4d
和 trn1
实例,其预留期限和实例数量选项如下。
-
预留持续时间:以 1 天为增量,最多 14 天;以 7 天为增量,最多 28 天
-
预留实例数量选项包括 1、2、4、8、16、32 或 64 个实例
要预留容量块,首先要指定容量需求,包括所需的实例类型、实例数量、时间、最早开始日期和最晚结束日期。然后,您可以看到符合您要求的可用容量块产品。容量块产品包括开始时间、可用区和预留价格等详细信息。容量块产品的价格取决于产品交付时的供需情况。预留容量块后,价格不会改变。有关更多信息,请参阅 容量块定价和计费。
当您购买容量块产品时,系统会根据您选择的日期和实例数创建预留。当容量块预留开始时,您可以通过在启动请求中指定预留 ID 来定位实例启动。
您可以在容量块结束时间前 30 分钟之前使用您预留的所有实例。在您的容量块预留还剩 30 分钟时,系统将开始终止在容量块中运行的所有实例。我们会利用这段时间清理您的实例,然后将容量块交付给下一个客户。预留的最后 30 分钟不计入容量块的价格。系统将在终止过程开始前 10 分钟通过 EventBridge 发布一个事件。有关更多信息,请参阅 使用 EventBridge 监控容量块。
支持的平台
适用于 ML 的容量块目前支持具有默认租赁的 p5.48xlarge
、p5e.48xlarge
、p4d.24xlarge
和 trn1.32xlarge
实例。当您使用 Amazon Web Services Management Console 购买容量块时,默认平台选项为 Linux/UNIX。当您使用 Amazon Command Line Interface(Amazon CLI)或 Amazon SDK 购买容量块时,可以使用以下平台选项:
-
Linux/Unix
-
Red Hat Enterprise Linux
-
含有 HA 的 RHEL
-
SUSE Linux
-
Ubuntu Pro
注意事项
在使用容量块之前,请考虑以下细节和限制。
-
容量块于协调世界时(UTC)上午 11:30 开始和结束。
-
在容量块中运行的实例的终止过程从预留最后一天协调世界时(UTC)上午 11:00 开始。
-
容量块的预留起始时间最长为未来 8 周。
-
不允许修改和取消容量块。
-
容量块不能跨 Amazon 账户或在 Amazon 组织内部共享。
-
容量块不能在容量预留组中使用。
-
在特定日期,Amazon 组织中所有账户的容量块中可预留的实例总数不能超过 64 个。
-
要使用容量块,实例必须具体定位预留 ID。
-
容量块中的实例不计入按需型实例限制。
-
对于使用自定义 AMI 的 P5 实例,请确保拥有 EFA 所需的软件和配置。
-
对于 Amazon EKS 托管式节点组,请参阅创建带适用于机器学习的 Amazon EC2 容量块的托管式节点组。对于 Amazon EKS 自行管理的节点组,请参阅将适用于机器学习的容量块与自行管理的节点配合使用。
相关资源
创建容量块后,您可以使用容量块执行以下操作:
-
在容量块中启动实例。有关更多信息,请参阅 在容量块中启动实例。
-
创建 Amazon EC2 Auto Scaling 组 有关更多信息,请参阅《Amazon EC2 Auto Scaling 用户指南》中的将容量块用于机器学习工作负载。
注意
如果使用 Amazon EC2 Auto Scaling 或 Amazon EKS,则您可以将扩展计划为在容量块预留开始时运行。计划扩展时,Amazon 会自动为您处理重试,让您无需担心实现重试逻辑来处理暂时性故障。
-
使用 Amazon ParallelCluster 增强 ML 工作流。有关更多信息,请参阅 Enhancing ML workflows with Amazon ParallelCluster and Amazon EC2 Capacity Blocks for ML
。
有关 Amazon ParallelCluster 的更多信息,请参阅什么是 Amazon ParallelCluster。