ML 容量块 - Amazon Elastic Compute Cloud
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

ML 容量块

机器学习容量块允许您在未来预留基于 GPU 的加速型计算实例,以支持您的短期机器学习工作负载。在容量块内运行的实例会自动紧密放置在 Amazon EC2 UltraClusters 中,以实现低延迟、PB 级非阻塞联网。

您还可以使用容量块为 Amazon EC2 UltraServers 预留容量。UltraServer 在低延迟、高带宽的加速器互连中连接多个 Amazon EC2 实例。您可以使用 UltraServer 来处理训练、微调和推理中最需要计算和内存的 AI/ML 工作负载。有关更多信息,请参阅 Amazon EC2 UltraServers

使用容量块,您可以了解 GPU 实例容量在未来何时可用,并安排容量块在最适合您的时间启动。当您预留容量块时,您可以获得 GPU 实例的可预测容量保证,同时只需为所需的时间付费。如果您需要 GPU 一次支持几天或几周的 ML 工作负载,并且不想在未使用 GPU 实例时支付预留费用,我们建议您使用容量块。

以下是容量块的一些常见使用案例。

  • ML 模型训练和微调 - 无中断地访问您为完成 ML 模型训练和微调而预留的 GPU 实例。

  • ML 实验和原型 - 运行实验并构建需要短期 GPU 实例的原型。

某些 Amazon 区域的部分实例类型可使用容量块。有关更多信息,请参阅 支持的实例类型和区域

您可以预留容量块,预留开始时间最长为未来 8 周。每个容量块最多可以有 64 个实例,您最多可以跨容量块拥有 256 个实例。

支持的实例类型和区域

实例和 UltraServer 容量块可用于以下实例类型和 Amazon 区域。

注意

并非所有 Amazon Web Services 区域 中的所有实例类型都支持 64 个实例的容量块大小。

实例容量块

  • p6-b300.48xlarge

    • 美国西部(俄勒冈)– us-west-2

  • p6-b200.48xlarge

    • 美国东部(弗吉尼亚北部)– us-east-1

    • 美国东部(俄亥俄州):us-east-2

    • 美国西部(俄勒冈)– us-west-2

  • p5.4xlarge

    • 美国东部(弗吉尼亚北部)– us-east-1

    • 美国东部(俄亥俄州):us-east-2

    • 美国西部(俄勒冈)– us-west-2

    • 欧洲地区(伦敦):eu-west-2

    • 亚太地区(孟买):ap-south-1

    • 亚太地区(东京):ap-northeast-1

    • 亚太地区(悉尼):ap-southeast-2

    • 南美洲(圣保罗):sa-east-1

  • p5.48xlarge

    • 美国东部(弗吉尼亚北部)– us-east-1

    • 美国东部(俄亥俄州):us-east-2

    • 美国西部(北加利福尼亚):us-west-1

    • 美国西部(俄勒冈)– us-west-2

    • 欧洲地区(斯德哥尔摩):eu-north-1

    • 欧洲地区(伦敦):eu-west-2

    • 南美洲(圣保罗):sa-east-1

    • 亚太地区(东京):ap-northeast-1

    • 亚太地区(孟买):ap-south-1

    • 亚太地区(悉尼):ap-southeast-2

    • 亚太地区(雅加达):ap-southeast-3

  • p5e.48xlarge

    • 美国东部(弗吉尼亚北部)– us-east-1

    • 美国东部(俄亥俄州):us-east-2

    • 美国西部(北加利福尼亚):us-west-1

    • 美国西部(俄勒冈)– us-west-2

    • 欧洲地区(斯德哥尔摩):eu-north-1

    • 欧洲地区(伦敦):eu-west-2

    • 欧洲(西班牙):eu-south-2

    • 南美洲(圣保罗):sa-east-1

    • 亚太地区(东京):ap-northeast-1

    • 亚太地区(首尔):ap-northeast-2

    • 亚太地区(孟买):ap-south-1

    • 亚太地区(雅加达):ap-southeast-3

  • p4d.24xlarge

    • 美国东部(弗吉尼亚北部)– us-east-1

    • 美国东部(俄亥俄州):us-east-2

    • 美国西部(俄勒冈)– us-west-2

  • p4de.24xlarge

    • 美国东部(弗吉尼亚北部)– us-east-1

    • 美国西部(俄勒冈)– us-west-2

  • trn1.32xlarge

    • 美国东部(弗吉尼亚北部)– us-east-1

    • 美国东部(俄亥俄州):us-east-2

    • 美国西部(北加利福尼亚):us-west-1

    • 美国西部(俄勒冈)– us-west-2

    • 欧洲地区(斯德哥尔摩):eu-north-1

    • 亚太地区(孟买):ap-south-1

    • 亚太地区(悉尼):ap-southeast-2

    • 亚太地区(墨尔本):ap-southeast-4

  • trn2.3xlarge

    • 亚太地区(墨尔本):ap-southeast-4

    • 南美洲(圣保罗):sa-east-1

  • trn2.48xlarge

    • 美国东部(俄亥俄州):us-east-2

UltraServer 容量块

  • Trn2

    • 美国东部(俄亥俄州):us-east-2

  • P6e-GB200

    • 达拉斯本地区域(弗吉尼亚北部)– us-east-1-dfw-2a

支持的平台

适用于 ML 的容量块目前仅支持具有默认租赁的实例和 UltraServer。当您使用 Amazon Web Services 管理控制台 购买容量块时,默认平台选项为 Linux/UNIX。当您使用 Amazon Command Line Interface(Amazon CLI)或 Amazon SDK 购买容量块时,可以使用以下平台选项:

  • Linux/Unix

  • Red Hat Enterprise Linux

  • 含有 HA 的 RHEL

  • SUSE Linux

  • Ubuntu Pro

注意事项

在使用容量块之前,请考虑以下细节和限制。

  • 如果我们检测到影响了 UltraServer 容量块的缺陷,我们会通知您,但通常不会采取措施终止您在容量块上的实例。这是为了最大限度地减少对工作负载的意外中断。收到此通知后,您可以继续按原样使用 UltraServer 容量块,也可以通过终止容量块上的所有实例并提交 Amazon 支持案例来请求补救。收到您的支持案例后,我们将在完成补救后通知您,之后您便可以将实例重新启动到 UltraServer 容量块上。

  • 对于 P6e-GB200 UltraServer 容量块,您必须在容量块结束时间前至少 60 分钟终止实例。

  • 要使用 P6e-GB200 UltraServer 容量块,必须选择加入达拉斯本地区域(弗吉尼亚北部)。

  • 每个容量块最多可以有 64 个实例,您最多可以跨容量块拥有 256 个实例。

  • 您可以描述最快 30 分钟内即可启动的容量块产品。

  • 容量块于协调世界时 (UTC) 上午 11:30 结束。

  • 在容量块中运行的实例的终止过程从预留最后一天协调世界时(UTC)上午 11:00 开始。

  • 容量块的预留起始时间最长为未来 8 周。

  • 不允许取消容量块。

  • 无法移动拆分容量块。

  • 容量块不能跨 Amazon 账户或在 Amazon 组织内部共享。

  • 只有 UltraServer 容量块可与资源组一起使用。实例容量块不能与资源组一起使用。有关更多信息,请参阅 为 UltraServer 容量块创建资源组

  • 在特定日期,Amazon 组织中所有账户的容量块中可预留的实例总数不能超过 256 个。

  • 要使用容量块,实例必须具体定位预留 ID。

  • 容量块中的实例不计入按需型实例限制。

  • 对于使用自定义 AMI 的 P5 实例,请确保拥有 EFA 所需的软件和配置

  • 对于 Amazon EKS 托管式节点组,请参阅创建带适用于机器学习的 Amazon EC2 容量块的托管式节点组。对于 Amazon EKS 自行管理的节点组,请参阅将适用于机器学习的容量块与自行管理的节点配合使用

创建容量块后,您可以使用容量块执行以下操作:

有关 Amazon ParallelCluster 的更多信息,请参阅什么是 Amazon ParallelCluster