本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon ParallelCluster进程
本节仅适用于使用支持的传统作业调度程序之一(SGE、Slurm 或 Torque)部署的 HPC 集群。与这些调度程序一起使用时,Amazon ParallelCluster通过同时与 Auto Scaling 组和底层作业计划程序交互来管理计算节点的预置和删除。
对于基于的 HPC 集群Amazon Batch、Amazon ParallelCluster依赖于Amazon Batch用于计算节点管理。
从版本 2.11.5 开始Amazon ParallelCluster不支持使用SGE要么Torque计划程序。您可以在 2.11.4 之前的版本中继续使用它们,但它们没有资格获得未来的更新或故障排除支持Amazon和服务AmazonSupport 团队。
SGE and Torque integration processes
本节仅适用于Amazon ParallelCluster版本 2.11.4 以下(包括版本 2.11.4)。从版本 2.11.5 开始Amazon ParallelCluster不支持使用SGE和Torque计划程序、Amazon SNS 和 Amazon SQS。
一般概述
集群的生命周期在用户创建集群后开始。通常,从命令行界面 (CLI) 创建集群。创建集群之后,集群将一直存在,直到被删除为止。Amazon ParallelCluster 守护进程在集群节点上运行,主要是为了管理 HPC 集群的弹性。下图显示了用户工作流程和集群生命周期。以下各节描述用于管理集群的 Amazon ParallelCluster 守护进程。

与SGE和Torque计划程序Amazon ParallelCluster使用nodewatcher
、jobwatcher
, 和sqswatcher
进程。
jobwatcher
在集群运行时,root 用户拥有的进程将监视配置的计划程序(SGE要么Torque)。它每分钟评估队列以决定何时向上扩展。

sqswatcher
这些区域有:sqswatcher
进程监控由 Auto Scaling 发送的 Amazon SQS 消息,这些消息将告知您集群内的状态更改。当一个实例联机时,它会向 Amazon SQS 提交 “实例就绪” 消息。此消息由接收sqs_watcher
,在头节点上运行。这些消息用于通知队列管理员有新实例联机或遭到终止,以便能够在队列中添加或删除它们。

nodewatcher
nodewatcher
进程在计算队列中的每个节点上运行。在用户定义的 scaledown_idletime
期间之后,实例将终止。

Slurm integration processes
与Slurm计划程序Amazon ParallelCluster使用clustermgtd
和computemgt
进程。
clustermgtd
以异构模式运行的集群(通过指定queue_settingsvalue) 有一个集群管理守护进程 (clustermgtd
) 在头节点上运行的进程。这些任务由群集管理守护程序执行。
-
非活动的分区清理
-
静态容量管理:确保静态容量始终保持正常运行
-
将计划程序与 Amazon EC2 同步。
-
孤立实例清理
-
恢复在挂起工作流程之外发生的 Amazon EC2 终止时的计划程序节点状态
-
运行状况不佳的 Amazon EC2 实例管理(未通过 Amazon EC2 运行状况检查)
-
计划维护事件管理
-
不健康的调度程序节点管理(计划程序运行状况检查失败)
computemgtd
以异构模式运行的集群(通过指定queue_settingsvalue)有计算管理守护进程(computemgtd
) 在每个计算节点上运行的进程。每五 (5) 分钟,计算管理守护进程确认头节点可以访问并且运行状况良好。如果过去五 (5) 分钟,在此期间无法到达头节点或不正常,则计算节点将关闭。