本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用容量块处理机器学习工作负载
Capacity Blocks 可帮助您在将来的某个日期预留备受追捧的 GPU 实例,以支持您的短时机器学习 (ML) 工作负载。
有关容量块及其工作原理的概述,请参阅《适用于 Linux 实例的 Amazon EC2 用户指南》中的 ML 容量块。
您可以将容量块用于以下 EC2 实例类型和 Amazon Web Services 区域:
实例类型 | 区域 |
---|---|
p5.48xlarge |
美国东部(俄亥俄)、美国东部(弗吉尼亚北部) |
p4d.24xlarge |
美国东部(俄亥俄州)、美国西部(俄勒冈) |
要开始使用容量块,请在特定的可用区中创建容量预留。容量块以targeted
容量预留形式在单个可用区中交付。创建启动模板时,请指定 Capacity Block 的预留 ID 和实例类型。然后,更新您的 Auto Scaling 组以使用您创建的启动模板和容量块的可用区。当您的容量块预留开始时,使用计划扩展启动与容量块预留相同数量的实例。
操作指导方针
以下是将容量块与自动扩缩组结合使用时应遵循的基本操作指导方针。
-
在容量块预留结束时间前 30 分钟以上,将自动扩缩组横向缩减到零。Amazon EC2 将在容量封锁结束前 30 分钟终止所有仍在运行的实例。
-
我们建议您在适当的预留时间使用计划扩展(添加实例)和缩小(移除实例)。有关更多信息,请参阅 Amazon EC2 Auto Scaling 的计划扩缩。
-
根据需要添加生命周期挂钩,以便在缩小实例时正常关闭实例内的应用程序。在 Amazon EC2 在容量块预留结束前 30 分钟开始强制终止您的实例,请留出足够的时间让生命周期操作完成。有关更多信息,请参阅 Amazon EC2 Auto Scaling 生命周期钩子。
-
确保自动扩缩组在整个预留期间指向启动模板的正确版本。我们建议指向启动模板的特定版本,而不是
$Default
或$Latest
版本。
注意
如果您让容量块实例一直运行到预留结束并且 Amazon EC2 将其收回,则您的 Auto Scaling 组的扩展活动会将其显示taken out of service in
response to an EC2 health check that indicated it had been
terminated or stopped
为 “”,尽管它是在容量块结束时故意回收的。同样,Amazon EC2 Auto Scaling 将尝试替换实例,方法与替换任何未通过运行状况检查的实例的方式相同。有关更多信息,请参阅 自动扩缩组中实例的运行状况检查。
在启动模板中指定容量块
要创建以 Auto Scaling 组的特定容量块为目标的启动模板,请使用以下方法之一:
限制
-
只有当您的自动扩缩组具有兼容的配置时,才会支持容量块。不支持混合实例组和暖池。
-
一次只能瞄准一个容量块。
相关资源
-
有关使用 P5 实例的先决条件和建议,请参阅《适用于 Linux 实例的 Amazon EC2 用户指南》中的 P5 实例入门。
-
Amazon EKS 支持使用容量块来支持 Amazon EKS 集群上的短时机器学习 (ML) 工作负载。有关更多信息,请参阅 Amazon EKS 用户指南中的机器学习容量块。
-
您可以将容量块与支持的实例类型和区域一起使用。但是,按需容量预留提供了为其他实例类型和区域预留容量的灵活性。有关向您展示如何使用按需容量预留选项的教程,请参阅使用按需容量预留来预留特定可用区的容量。