

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon ParallelCluster 进程
<a name="processes-v3"></a>

本节适用于使用 Slurm 部署的集群。与该调度器一起使用时，可与底层作业调度器 Amazon ParallelCluster 交互以管理计算节点的配置和移除。

对于基于的 HPC 集群 Amazon Batch，依 Amazon ParallelCluster 靠提供的功能 Amazon Batch 来管理计算节点。

## `clustermgtd`
<a name="clustermgtd-v3"></a>

集群管理守护程序 (`clustermgtd`) 执行以下任务：
+ 清理非活动分区
+ 管理与容量块关联的Slurm预留和节点（请参阅以下部分）
+ 管理静态容量，确保其始终处于正常运行状态
+ 将调度器与 Amazon EC2 同步。
+ 清理孤立实例
+ 在暂停工作流程之外发生 Amazon EC2 终止时，恢复计划程序节点状态
+ 管理运行状况不佳的 Amazon EC2 实例（未通过亚马逊 EC2 运行状况检查的实例）
+ 管理定期维护事件
+ 管理不健康的调度器节点（调度器运行状况检查失败的节点）

### 管理与容量块相关的Slurm预留和节点
<a name="mgmtofSlurmReservationNodesForCB-v3"></a>

ParallelCluster 支持按需容量预留 (ODCR) 和 Machine Learning 容量块 (CB)。与 ODCR 不同，CB 可以有未来的开始时间，并且有时间限制。

`clustermgtd`在循环中搜索运行状况不佳的节点，终止所有已关闭的 Amazon EC2 实例，如果它们是静态节点，则将其替换为新实例。

Amazon ParallelCluster 以不同的方式管理与容量块关联的静态节点 — 即使 CB 尚未处于活动状态，它也会创建集群，并在 CB 处于活动状态后自动启动实例。

与尚未激活的计算资源对应的Slurm节点将保持维护状态，直到到达 CB 启动时间。 CBs 这些Slurm节点仍处于与Slurm管理员用户关联的 reservation/maintenance 状态，这意味着它们可以接受作业，但在Slurm预留被移除之前，任务仍处于待处理状态。

`clustermgtd`自动创建或删除Slurm预留 — 它会根据 CB 状态将相关的 CB 节点置于维护状态。当 CB 变为活动状态时，Slurm预留将被移除，节点将启动并可用于待处理的任务或新的任务提交。

当到达 CB 结束时间时，节点将移回某个 reservation/maintenance 状态。当 CB 不再处于活动状态且实例终止时，由用户决定是否使用新 queue/compute 资源。 resubmit/requeue 

## `clusterstatusmgtd`
<a name="clusterstatusmgtd-v3"></a>

集群状态管理守护程序 (`clusterstatusmgtd`) 管理计算队列状态更新。它每分钟都会获取存储在 DynamoDB 表中的队列状态并管理任何请求。 STOP/START 

## `computemgtd`
<a name="computemgtd-v3"></a>

计算管理守护程序 (`computemgtd`) 进程在每个群集计算节点上运行。每隔五 (5) 分钟，计算管理进程守护程序就会确认头节点可以访问并且运行正常。如果在五 (5) 分钟内无法访问头节点或头节点运行状况不佳，则将关闭计算节点。