使用竞价型实例 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用竞价型实例

Amazon ParallelCluster 如果您在集群配置文件SPOT中将 SlurmQueues/CapacityTypeAwsBatchQueues/设置为 CapacityType,则使用竞价型实例。竞价型实例比按需型实例更具成本效益,但它们可能会中断。利用竞价型实例中断通知 可能会有帮助,该通知可在 Amazon EC2 必须停止或终止您的竞价型实例时,提前两分钟发出警告。有关更多信息,请参阅 Amazon EC2 用户指南中的竞价型实例中断。要了解 AwsBatchQueues 如何使用竞价型实例,请参阅 Amazon Batch User Guide 中的 Compute Resources

Amazon ParallelCluster 配置的调度器将任务分配给带有竞价型实例的队列中的计算资源,就像将任务分配给带有按需实例的队列中的计算资源一样。

使用竞价型实例时,您的账户中必须存在 AWSServiceRoleForEC2Spot 服务相关角色。要使用在您的账户中创建此角色 Amazon CLI,请运行以下命令:

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

有关更多信息,请参阅 Amazon EC2 用户指南中的竞价型实例请求的服务相关角色

以下各部分介绍了使用 SlurmQueues 时竞价型实例可能被中断的三种情形。

情形 1:没有运行作业的竞价型实例被中断

发生这种中断时,如果调度器队列有需要额外实例的待处理任务,或者活动实例的数量小于 SlurmQueues/ComputeResources/MinCount,则 Amazon ParallelCluster 尝试替换实例。如果 Amazon ParallelCluster 无法配置新实例,则会定期重复请求新实例。

情形 2:运行单节点作业的竞价型实例被中断

作业失败,状态代码为 NODE_FAIL,并且该作业重新排入队列(除非在提交作业时指定了 --no-requeue)。如果节点是静态节点,则会将其替换。如果节点是动态节点,则会终止并重置该节点。有关sbatch更多信息(包括--no-requeue参数),请参阅Slurm文档sbatch中的。

情形 3:运行多节点作业的竞价型实例被中断

作业失败,状态代码为 NODE_FAIL,并且该作业重新排入队列(除非在提交作业时指定了 --no-requeue)。如果节点是静态节点,则会将其替换。如果节点是动态节点,则会终止并重置该节点。运行已终止作业的其他节点可能会被分配给其他待处理作业,或在经过配置的 SlurmSettings/ScaledownIdletime 时间后进行缩减。

有关竞价型实例的更多信息,请参阅 Amazon EC2 用户指南中的竞价型实例