使用竞价型实例 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用竞价型实例

Amazon ParallelCluster如果您已设置,则使用竞价型实例SlurmQueues/CapacityType要么AwsBatchQueues/CapacityTypeSPOT在群集配置文件中)。竞价型实例比按需实例更具成本效益,但可能会中断。它可能有助于利用竞价型实例中断通知,该选项可在 Amazon EC2 必须停止或终止您的竞价型实例时,提前两分钟发出警告。有关更多信息,请参阅 。竞价型实例中断适用于 Linux 实例Amazon EC2 用户指南. 要了解如何操作AwsBatchQueues适用于 Spot 实例,请参阅计算资源中的Amazon Batch用户指南.

这些区域有:Amazon ParallelCluster配置的计划程序将作业分配给具有竞价型实例的队列中的计算资源,其方式与将作业分配给具有按需实例的队列中的计算资源的方式相同。

使用 Spot 实例时, AWSServiceRoleForEC2Spot 您的账户中必须存在服务相关角色。要在账户中使用Amazon CLI中,运行以下命令:

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

有关更多信息,请参阅 。竞价型实例请求的服务相关角色中的适用于 Linux 实例Amazon EC2 用户指南.

以下各部分介绍了 Spot 实例可能在使用SlurmQueues.

方案 1: 没有运行作业的 Spot 实例被中断

当这种中断发生时,Amazon ParallelCluster如果计划程序队列具有需要其他实例的待处理作业,或者活动实例的数量低于SlurmQueues/ComputeResources/MinCount. 如果Amazon ParallelCluster无法预配置新实例,则会定期重复对新实例的请求。

方案 2: 运行单节点作业的 Spot 实例被中断

作业失败,状态代码为NODE_FAIL,并且任务被重新排队(除非--no-requeue在提交作业时指定)。如果节点是静态节点,则会被替换。如果节点是动态节点,则该节点将被终止并重置。有关 的更多信息sbatch,包括--no-requeue参数,请参阅sbatch中的Slurm 文档.

方案 3: 运行多节点作业的 Spot 实例被中断

作业失败,状态代码为NODE_FAIL,并且任务被重新排队(除非--no-requeue是在提交作业时指定的)。如果节点是静态节点,则会被替换。如果节点是动态节点,则该节点将被终止并重置。可以将运行终止作业的其他节点分配给其他待处理作业,或者在配置SlurmSettings/ScaledownIdletime时间已经过去了。

有关 Spot 实例的更多信息,请参阅Spot 实例中的适用于 Linux 实例Amazon EC2 用户指南.