Amazon ParallelCluster进程 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon ParallelCluster进程

本节仅适用于使用支持的传统作业调度程序之一(SGE、Slurm 或 Torque)部署的 HPC 集群。与这些调度程序一起使用时,Amazon ParallelCluster通过同时与 Auto Scaling 组和底层作业计划程序交互,以管理计算节点的预置和删除。

对于基于Amazon Batch、Amazon ParallelCluster依赖于Amazon Batch用于计算节点管理。

一般概述

集群的生命周期在用户创建集群后开始。通常,从命令行界面 (CLI) 创建集群。创建集群之后,集群将一直存在,直到被删除为止。Amazon ParallelCluster 守护进程在集群节点上运行,主要是为了管理 HPC 集群的弹性。下图显示了用户工作流程和集群生命周期。以下各节描述用于管理集群的 Amazon ParallelCluster 守护进程。


    集群生命周期

jobwatcher

在集群运行时,root 用户拥有的进程将监视配置的计划程序 (SGE、Slurm,或者Torque)。每分钟都会评估队列,以决定何时向上扩展。


    jobwatcher工作流程

sqswatcher

这些区域有:sqswatcher进程监控由 Auto Scaling 发送的消息,这会告知您集群内的状态更改。当一个实例联机时,它会向 Amazon SQS 提交 “实例就绪” 消息。此消息由接收sqs_watcher,运行于头节点上的接收。这些消息用于通知队列管理员有新实例联机或遭到终止,以便能够在队列中添加或删除它们。


    sqswatcher工作流程

nodewatcher

nodewatcher 进程在计算队列中的每个节点上运行。在用户定义的 scaledown_idletime 期间之后,实例将终止。


    nodewatcher工作流程

clustermgtd

在异构模式下运行的群集(通过指定queue_settings值)有一个群集管理守护进程(clustermgtd)进程,该进程在头节点上运行。这些任务由群集管理守护程序执行。

  • 非活动分区清理

  • 静态容量管理:确保静态容量始终处于正常状态

  • 将计划程序与 Amazon EC2 同步。

  • 孤立实例清理

  • 在 Amazon EC2 终止时恢复暂停工作流程之外发生的计划程序节点状态

  • 运行状况不佳的 Amazon EC2 实例管理(未通过 Amazon EC2 运行状况检查)

  • 计划维护事件管理

  • 运行状况不佳的计划程序节点管理(计划程序运行状况检查失败

computemgtd

在异构模式下运行的群集(通过指定queue_settings值)具有计算管理守护进程(computemgtd) 进程,这些进程在每个计算节点上运行。每隔五 (5) 分钟,计算管理守护程序确认头节点可以访问并且正常运行。如果超过五 (5) 分钟,在此期间无法访问头节点或运行状况不佳,则计算节点将关闭。