本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon ParallelCluster进程
本部分适用于使用部署的群集Slurm. 与这个调度器一起使用时,Amazon ParallelCluster通过与底层作业计划程序交互,以管理计算节点的预置和删除。
对于基于Amazon Batch、Amazon ParallelCluster依赖于Amazon Batch用于计算节点管理。
clustermgtd
以下任务由群集管理守护程序执行。
-
非活动分区清理
-
静态容量管理:确保静态容量始终处于正常运行状态
-
将计划程序与Amazon EC2 同步。
-
孤立实例清理
-
在挂起工作流程之外发生的 Amazon EC2 终止时恢复计划程序节点状态
-
运行状况不佳的Amazon EC2 实例管理(未通过 Amazon EC2 运行状况检查)
-
计划维护事件管理
-
计划程序节点管理不正常(计划程序运行状况检查失败)
clusterstatusmgtd
集群状态管理守护程序管理计算队列状态更新。它每分钟都会获取存储在 DynamoDB 表中的队列状态,并管理任何停止/启动请求。
computemgtd
计算管理守护进程 (computemgtd
) 进程在每个集群计算节点上运行。每隔五 (5) 分钟,计算管理守护进程就会确认头节点可以访问并且运行状况良好。如果过了五 (5) 分钟,在此期间无法访问头节点或头节点运行状况不佳,则计算节点将关闭。