Amazon ParallelCluster 进程 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon ParallelCluster 进程

本节适用于使用 Slurm 部署的集群。与该调度器一起使用时,通过与底层作业调度器交互来 Amazon ParallelCluster 管理计算节点的配置和移除。

对于基于的 HPC 集群 Amazon Batch, Amazon ParallelCluster 依赖于提供的 Amazon Batch 计算节点管理功能。

clustermgtd

以下任务由集群管理进程守护程序执行。

  • 非活动分区清理

  • 管理 Slurm 预留空间和与容量块关联的节点(参见以下部分)

  • 静态容量管理:确保静态容量始终处于正常运行状态

  • 将调度器与 Amazon EC2 同步。

  • 孤立实例清理

  • 在暂停工作流之外发生 Amazon EC2 终止时还原调度器节点状态

  • 不正常 Amazon EC2 实例管理(Amazon EC2 运行状况检查失败)

  • 定期维护事件管理

  • 不正常调度器节点管理(调度器运行状况检查失败)

管理 Slurm 预留空间和与容量块相关的节点

ParallelCluster 支持按需容量预留 (ODCR) 和 Machine Learning 容量块 (CB)。与 ODCR 不同,CB 可以有 future 的开始时间,并且是有时间限制的。

Clustermgtd 在循环中搜索运行状况不佳的节点,并终止所有已关闭的 EC2 实例,如果它们是静态节点,则将其替换为新实例。

ParallelCluster 以不同的方式管理与容量块关联的静态节点。 Amazon ParallelCluster 即使 CB 尚未激活,也会创建集群,并且一旦 CB 处于活动状态,实例就会自动启动。

与尚未激活的 CB 关联的计算资源对应的 Slurm 节点将一直处于维护状态,直到到达 CB 开始时间。Slurm 节点将保持与 slurm 管理员用户关联的预留/维护状态,这意味着它们可以接受作业,但在 Slurm 预留被移除之前,任务将保持待处理状态。

Clustermgtd 将自动创建/删除 Slurm 预留,根据 CB 状态将相关的 CB 节点置于维护状态。当 CB 处于活动状态时,Slurm 预留将被移除,节点将启动并可用于待处理的任务或提交的新作业。

当到达 CB 结束时间时,节点将移回预留/维护状态。当 CB 不再处于活动状态且实例终止时,用户可以将任务重新提交/重新排队到新的队列/计算资源。

clusterstatusmgtd

集群状态管理进程守护程序管理计算实例集状态更新。它每分钟获取一次存储在 DynamoDB 表中的实例集状态并管理所有停止/启动请求。

computemgtd

计算管理进程守护程序 (computemgtd) 进程在每个集群计算节点上运行。每隔五 (5) 分钟,计算管理进程守护程序就会确认头节点可以访问并且运行正常。如果在五 (5) 分钟内无法访问头节点或头节点运行状况不佳,则将关闭计算节点。