ML 容量块
机器学习容量块允许您在未来预留基于 GPU 的加速型计算实例,以支持您的短期机器学习工作负载。在容量块内运行的实例会自动紧密放置在 Amazon EC2 UltraClusters
您还可以使用容量块为 Amazon EC2 UltraServers 预留容量。UltraServer 在低延迟、高带宽的加速器互连中连接多个 Amazon EC2 实例。您可以使用 UltraServer 来处理训练、微调和推理中最需要计算和内存的 AI/ML 工作负载。有关更多信息,请参阅 Amazon EC2 UltraServers
使用容量块,您可以了解 GPU 实例容量在未来何时可用,并安排容量块在最适合您的时间启动。当您预留容量块时,您可以获得 GPU 实例的可预测容量保证,同时只需为所需的时间付费。如果您需要 GPU 一次支持几天或几周的 ML 工作负载,并且不想在未使用 GPU 实例时支付预留费用,我们建议您使用容量块。
以下是容量块的一些常见使用案例。
-
ML 模型训练和微调 - 无中断地访问您为完成 ML 模型训练和微调而预留的 GPU 实例。
-
ML 实验和原型 - 运行实验并构建需要短期 GPU 实例的原型。
某些 Amazon 区域的部分实例类型可使用容量块。有关更多信息,请参阅 支持的实例类型和区域。
您可以预留容量块,预留开始时间最长为未来 8 周。每个容量块最多可以有 64 个实例,您最多可以跨容量块拥有 256 个实例。
主题
支持的实例类型和区域
实例和 UltraServer 容量块可用于以下实例类型和 Amazon 区域。
注意
并非所有 Amazon Web Services 区域 中的所有实例类型都支持 64 个实例的容量块大小。
实例容量块
-
p6-b300.48xlarge美国西部(俄勒冈)–
us-west-2
-
p6-b200.48xlarge美国东部(弗吉尼亚北部)–
us-east-1美国东部(俄亥俄州):
us-east-2美国西部(俄勒冈)–
us-west-2
-
p5.4xlarge美国东部(弗吉尼亚北部)–
us-east-1美国东部(俄亥俄州):
us-east-2美国西部(俄勒冈)–
us-west-2欧洲地区(伦敦):
eu-west-2亚太地区(孟买):
ap-south-1亚太地区(东京):
ap-northeast-1亚太地区(悉尼):
ap-southeast-2南美洲(圣保罗):
sa-east-1
-
p5.48xlarge美国东部(弗吉尼亚北部)–
us-east-1美国东部(俄亥俄州):
us-east-2美国西部(北加利福尼亚):
us-west-1美国西部(俄勒冈)–
us-west-2欧洲地区(斯德哥尔摩):
eu-north-1欧洲地区(伦敦):
eu-west-2南美洲(圣保罗):
sa-east-1亚太地区(东京):
ap-northeast-1亚太地区(孟买):
ap-south-1亚太地区(悉尼):
ap-southeast-2亚太地区(雅加达):
ap-southeast-3
-
p5e.48xlarge美国东部(弗吉尼亚北部)–
us-east-1美国东部(俄亥俄州):
us-east-2美国西部(北加利福尼亚):
us-west-1美国西部(俄勒冈)–
us-west-2欧洲地区(斯德哥尔摩):
eu-north-1欧洲地区(伦敦):
eu-west-2欧洲(西班牙):
eu-south-2南美洲(圣保罗):
sa-east-1亚太地区(东京):
ap-northeast-1亚太地区(首尔):
ap-northeast-2亚太地区(孟买):
ap-south-1亚太地区(雅加达):
ap-southeast-3
-
p4d.24xlarge美国东部(弗吉尼亚北部)–
us-east-1美国东部(俄亥俄州):
us-east-2美国西部(俄勒冈)–
us-west-2
-
p4de.24xlarge美国东部(弗吉尼亚北部)–
us-east-1美国西部(俄勒冈)–
us-west-2
-
trn1.32xlarge美国东部(弗吉尼亚北部)–
us-east-1美国东部(俄亥俄州):
us-east-2美国西部(北加利福尼亚):
us-west-1美国西部(俄勒冈)–
us-west-2欧洲地区(斯德哥尔摩):
eu-north-1亚太地区(孟买):
ap-south-1亚太地区(悉尼):
ap-southeast-2亚太地区(墨尔本):
ap-southeast-4
-
trn2.3xlarge亚太地区(墨尔本):
ap-southeast-4南美洲(圣保罗):
sa-east-1
-
trn2.48xlarge美国东部(俄亥俄州):
us-east-2
UltraServer 容量块
-
Trn2美国东部(俄亥俄州):
us-east-2
-
P6e-GB200达拉斯本地区域(弗吉尼亚北部)–
us-east-1-dfw-2a
支持的平台
适用于 ML 的容量块目前仅支持具有默认租赁的实例和 UltraServer。当您使用 Amazon Web Services 管理控制台 购买容量块时,默认平台选项为 Linux/UNIX。当您使用 Amazon Command Line Interface(Amazon CLI)或 Amazon SDK 购买容量块时,可以使用以下平台选项:
-
Linux/Unix
-
Red Hat Enterprise Linux
-
含有 HA 的 RHEL
-
SUSE Linux
-
Ubuntu Pro
注意事项
在使用容量块之前,请考虑以下细节和限制。
-
如果我们检测到影响了 UltraServer 容量块的缺陷,我们会通知您,但通常不会采取措施终止您在容量块上的实例。这是为了最大限度地减少对工作负载的意外中断。收到此通知后,您可以继续按原样使用 UltraServer 容量块,也可以通过终止容量块上的所有实例并提交 Amazon 支持案例来请求补救。收到您的支持案例后,我们将在完成补救后通知您,之后您便可以将实例重新启动到 UltraServer 容量块上。
-
对于
P6e-GB200UltraServer 容量块,您必须在容量块结束时间前至少 60 分钟终止实例。 -
要使用
P6e-GB200UltraServer 容量块,必须选择加入达拉斯本地区域(弗吉尼亚北部)。 -
每个容量块最多可以有 64 个实例,您最多可以跨容量块拥有 256 个实例。
-
您可以描述最快 30 分钟内即可启动的容量块产品。
-
容量块于协调世界时 (UTC) 上午 11:30 结束。
-
在容量块中运行的实例的终止过程从预留最后一天协调世界时(UTC)上午 11:00 开始。
-
容量块的预留起始时间最长为未来 8 周。
-
不允许取消容量块。
-
容量块不能跨 Amazon 账户或在 Amazon 组织内部共享。
-
只有 UltraServer 容量块可与资源组一起使用。实例容量块不能与资源组一起使用。有关更多信息,请参阅 为 UltraServer 容量块创建资源组。
-
在特定日期,Amazon 组织中所有账户的容量块中可预留的实例总数不能超过 256 个。
-
要使用容量块,实例必须具体定位预留 ID。
-
容量块中的实例不计入按需型实例限制。
-
对于使用自定义 AMI 的 P5 实例,请确保拥有 EFA 所需的软件和配置。
-
对于 Amazon EKS 托管式节点组,请参阅创建带适用于机器学习的 Amazon EC2 容量块的托管式节点组。对于 Amazon EKS 自行管理的节点组,请参阅将适用于机器学习的容量块与自行管理的节点配合使用。
相关资源
创建容量块后,您可以使用容量块执行以下操作:
-
在容量块中启动实例。有关更多信息,请参阅 使用容量块启动实例。
-
创建 Amazon EC2 Auto Scaling 组 有关更多信息,请参阅《Amazon EC2 Auto Scaling 用户指南》中的将容量块用于机器学习工作负载。
注意
如果使用 Amazon EC2 Auto Scaling 或 Amazon EKS,则您可以将扩展计划为在容量块预留开始时运行。计划扩展时,Amazon 会自动为您处理重试,让您无需担心实现重试逻辑来处理暂时性故障。
-
使用 Amazon ParallelCluster 增强 ML 工作流。有关更多信息,请参阅 Enhancing ML workflows with Amazon ParallelCluster and Amazon EC2 Capacity Blocks for ML
。
有关 Amazon ParallelCluster 的更多信息,请参阅什么是 Amazon ParallelCluster。