最佳实践 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

最佳实践

最佳实践:主实例类型选择

尽管主节点不执行任何作业,但其功能和大小对集群的整体性能至关重要。

在为主节点选择要使用的实例类型时,您需要评估以下各项:

  • 集群大小:主节点编排集群的扩展逻辑,并负责将新节点附加到调度器。如果您需要纵向扩展和缩减由大量节点组成的集群,则需要为主节点提供一些额外的计算容量。

  • 共享文件系统:使用共享文件系统在计算节点和主节点之间共享构件时,请考虑到主节点是公开 NFS 服务器的节点。因此,您需要选择具有足够网络带宽和足够专用 Amazon EBS 带宽以处理您的工作流程的实例类型。

最佳实践:网络性能

有三个提示涵盖了改善网络通信的所有可能性。

  • 置放群组:集群置放群组是单个可用区中的实例的逻辑分组。有关置放群组的更多信息,请参阅 Amazon EC2 用户指南中的置放群组。您可以使用 placement_group = your-placement-group-name 将集群配置为使用自己的置放群组,也可以使用 "compute" 策略和 placement_group = DYNAMIC,让 Amazon ParallelCluster 创建置放群组。有关更多信息,请参阅 placement_group(多队列模式)和 placement_group(单队列模式)。

  • 增强联网:考虑选择支持增强联网的实例类型。有关更多信息,请参阅 Amazon EC2 用户指南中的增强版 Linux 联网

  • Elastic Fabric Adapter:要支持高水平可扩展实例间通信,请考虑为网络选择 EFA 网络接口。EFA 的定制操作系统 (OS) 旁路硬件通过云的按需弹性和灵活性增强了实例间通信。 Amazon 要将单个 Slurm 集群队列配置为使用 EFA,请设置 enable_efa = true。有关将 EFA 与配合使用的更多信息 Amazon ParallelCluster,请参阅Elastic Fabric Adapterenable_efa。有关 EFA 的更多信息,请参阅 Amazon EC2 用户指南(适用于 Linux 实例)中的 Elastic Fabric Adapter

  • 实例带宽:带宽随实例大小而扩展,请考虑选择更适合您需求的实例类型,请参阅 Amazon EC2 用户指南中的 Amazon EBS 优化实例和 Amaz on EBS 卷类型

最佳实践:预算提醒

要管理 Amazon ParallelCluster 资源成本,我们建议您使用 Amazon Budgets 操作为选定 Amazon 资源创建预算并定义预算阈值提醒。有关更多信息,请参阅 Amazon Budgets 用户指南 中的配置预算操作。您也可以使用 Amazon CloudWatch 创建账单警报。有关更多信息,请参阅创建账单警报以监控您的预估 Amazon 费用

最佳实践:将集群移至新的 Amazon ParallelCluster 次要版本或补丁版本

当前,每个 Amazon ParallelCluster 次要版本及其 pcluster CLI都是独立的。要将集群迁移至新的次要版本或修补版本,必须使用新版本的 CLI 重新创建集群。

要优化将集群迁移到新次要版本的过程或出于其他原因保存共享存储数据,我们建议您使用以下最佳实践。

  • 将个人数据保存在外部卷中,例如 Amazon EFS 和 FSx for Lustre。这样,您可以轻松地将数据从一个集群迁移到另一个集群。

  • 使用 Amazon CLI 或创建下列类型的共享存储系统 Amazon Web Services Management Console:

    将它们作为现有文件系统添加到新集群配置中。这样,当您删除集群时,这些文件系统会被保留下来,并且可以附加到新集群。共享存储系统无论是附加到集群还是与集群分离,通常都会产生费用。

    我们建议您使用 Amazon EFS 或适用于 Lustre 的 Amazon FSx 文件系统,因为它们可以同时附加到多个集群,而且您可以在删除旧集群之前将它们附加到新集群。有关更多信息,请参阅 Amazon EFS 用户指南 中的挂载 Amazon EFS 文件系统适用于 Lustre 的 Amazon FSx 用户指南 中的访问 FSx for Lustre 文件系统

  • 使用自定义引导操作来自定义您的实例,而不是使用自定义 AMI。这可优化创建过程,因为不需要为每个新版本创建新的自定义 AMI。

  • 推荐的序列。

    1. 更新集群配置以使用现有文件系统定义。

    2. 验证 pcluster 版本并在需要时进行更新。

    3. 创建并测试新集群。

      • 确保您的数据在新集群中可用。

      • 确保您的应用程序可以在新集群中正常运行。

    4. 如果您的新集群经过全面测试并可正常运行,而且您确定不会使用旧集群,请将其删除。