Amazon ParallelCluster进程 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon ParallelCluster进程

本节适用于使用部署的群集Slurm. 与此调度程序一起使用时,Amazon ParallelCluster通过与底层作业计划程序交互,以管理计算节点的预置和删除。

对于基于的 HPC 集群Amazon Batch、Amazon ParallelCluster依赖于Amazon Batch用于计算节点管理。

clustermgtd

以下任务由群集管理守护程序执行。

  • 非活动的分区清理

  • 静态容量管理:确保静态容量始终保持正常运行

  • 将计划程序与 Amazon EC2 同步。

  • 孤立实例清理

  • 恢复在挂起工作流程之外发生的 Amazon EC2 终止时的计划程序节点状态

  • 运行状况不佳的 Amazon EC2 实例管理(未通过 Amazon EC2 运行状况检查)

  • 计划维护事件管理

  • 不健康的调度程序节点管理(计划程序运行状况检查失败)

computemgtd

计算管理守护进程 (computemgtd) 进程在每个集群计算节点上运行。每五 (5) 分钟,计算管理守护进程确认头节点可以访问并且运行状况良好。如果过去五 (5) 分钟,在此期间无法到达头节点或不正常,则计算节点将关闭。