使用 Slurm 会计创建集群 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Slurm 会计创建集群

了解如何使用 Slurm 会计配置和创建集群。有关更多信息,请参阅 Slurm会计 Amazon ParallelCluster

使用 Amazon ParallelCluster 命令行界面 (CLI) 或 API 时,您只需为创建或更新 Amazon ParallelCluster 映像和集群时创建的 Amazon 资源付费。有关更多信息,请参阅 Amazon ParallelCluster 使用的 Amazon 服务

Amazon ParallelCluster UI 基于无服务器的架构而构建,在大多数情况下,可以在 Amazon Free Tier 类别中使用。有关更多信息,请参阅 Amazon ParallelCluster UI 成本

在本教程中,您将使用 CloudFormation 快速创建模板来创建适用于 MySQL 的 Amazon Aurora 无服务器数据库。该模板会指示 CloudFormation 创建所有必要的组件,以便在集群所在的 VPC 上部署 Amazon Aurora 无服务器数据库。该模板还会为集群与数据库之间的连接创建基本的网络和安全配置。

注意

从版本 3.3.0 开始,Amazon ParallelCluster 通过集群配置参数 SlurmSettings/Database 支持 Slurm 会计。

注意

快速创建模板用作一个示例。此模板并不涵盖 Slurm 会计数据库服务器的所有可能用例。您负责创建配置和容量适合您的生产工作负载的数据库服务器。

先决条件:

步骤 1:为 Amazon ParallelCluster 创建 VPC 和子网

要将提供的 CloudFormation 模板用于 Slurm 会计数据库,您必须已经设置好可供集群使用的 VPC。您可以手动设置,也可以在使用 Amazon ParallelCluster 命令行界面配置和创建集群的过程中进行设置。如果您已经使用 Amazon ParallelCluster,则可能已经具有可用来部署集群和数据库服务器的 VPC。

步骤 2:创建数据库堆栈

使用 CloudFormation 快速创建模板创建用于 Slurm 会计的数据库堆栈。该模板需要以下输入:

  • 数据库服务器凭证,特别是管理员用户名和密码。

  • Amazon Aurora 无服务器集群的大小。这取决于预期的集群负载。

  • 网络参数,特别是目标 VPC 和子网或用于创建子网的 CIDR 块。

为您的数据库服务器选择适当的凭证和大小。对于网络选项,您必须使用 Amazon ParallelCluster 集群部署到的同一个 VPC。您可以为数据库创建子网并将其作为输入传递给模板。或者,为两个子网提供两个不相交的 CIDR 块,然后让 CloudFormation 模板为 CIDR 块创建这两个子网。确保 CIDR 块不与现有子网重叠。如果 CIDR 块与现有子网重叠,则无法创建堆栈。

创建数据库服务器需要几分钟时间。

步骤 3:在启用 Slurm 会计的情况下创建集群

提供的 CloudFormation 模板可生成一个包含部分已定义输出的 CloudFormation 堆栈。从 Amazon Web Services Management Console中,您可以在 CloudFormation 堆栈视图的输出选项卡中查看输出。要启用 Slurm 会计,必须在 Amazon ParallelCluster 集群配置文件中使用下面的一些输出:

使用输出值更新您的集群配置文件 Database 参数。使用 pcluster CLI 创建集群。

$ pcluster create-cluster -n cluster-3.x -c path/to/cluster-config.yaml

创建集群后,您可以开始使用 Slurm 会计命令,例如 sacctmgrsacct