Amazon ParallelCluster 进程 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon ParallelCluster 进程

本节适用于使用 Slurm 部署的集群。与该调度器一起使用时,可与底层作业调度器 Amazon ParallelCluster 交互以管理计算节点的配置和移除。

对于基于的 HPC 集群 Amazon Batch,依 Amazon ParallelCluster 靠提供的功能 Amazon Batch 来管理计算节点。

clustermgtd

集群管理守护程序 (clustermgtd) 执行以下任务:

  • 清理非活动分区

  • 管理与容量块关联的Slurm预留和节点(请参阅以下部分)

  • 管理静态容量,确保其始终处于正常运行状态

  • 将调度器与 Amazon EC2 同步。

  • 清理孤立实例

  • 在暂停工作流程之外发生 Amazon EC2 终止时,恢复计划程序节点状态

  • 管理运行状况不佳的 Amazon EC2 实例(未通过亚马逊 EC2 运行状况检查的实例)

  • 管理定期维护事件

  • 管理不健康的调度器节点(调度器运行状况检查失败的节点)

管理与容量块相关的Slurm预留和节点

ParallelCluster 支持按需容量预留 (ODCR) 和 Machine Learning 容量块 (CB)。与 ODCR 不同,CB 可以有未来的开始时间,并且有时间限制。

clustermgtd在循环中搜索运行状况不佳的节点,终止所有已关闭的 Amazon EC2 实例,如果它们是静态节点,则将其替换为新实例。

Amazon ParallelCluster 以不同的方式管理与容量块关联的静态节点 — 即使 CB 尚未处于活动状态,它也会创建集群,并在 CB 处于活动状态后自动启动实例。

与尚未激活的计算资源对应的Slurm节点将保持维护状态,直到到达 CB 启动时间。 CBs 这些Slurm节点仍处于与Slurm管理员用户关联的 reservation/maintenance 状态,这意味着它们可以接受作业,但在Slurm预留被移除之前,任务仍处于待处理状态。

clustermgtd自动创建或删除Slurm预留 — 它会根据 CB 状态将相关的 CB 节点置于维护状态。当 CB 变为活动状态时,Slurm预留将被移除,节点将启动并可用于待处理的任务或新的任务提交。

当到达 CB 结束时间时,节点将移回某个 reservation/maintenance 状态。当 CB 不再处于活动状态且实例终止时,由用户决定是否使用新 queue/compute 资源。 resubmit/requeue

clusterstatusmgtd

集群状态管理守护程序 (clusterstatusmgtd) 管理计算队列状态更新。它每分钟都会获取存储在 DynamoDB 表中的队列状态并管理任何请求。 STOP/START

computemgtd

计算管理守护程序 (computemgtd) 进程在每个群集计算节点上运行。每隔五 (5) 分钟,计算管理进程守护程序就会确认头节点可以访问并且运行正常。如果在五 (5) 分钟内无法访问头节点或头节点运行状况不佳,则将关闭计算节点。