本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Slurm 会计创建集群
了解如何使用 Slurm 会计配置和创建集群。有关更多信息,请参阅 Slurm会计 Amazon ParallelCluster。
使用 Amazon ParallelCluster 命令行界面 (CLI) 或 API 时,您只需为创建或更新 Amazon ParallelCluster 映像和集群时创建的 Amazon 资源付费。有关更多信息,请参阅 Amazon ParallelCluster 使用的 Amazon 服务。
Amazon ParallelCluster UI 基于无服务器的架构而构建,在大多数情况下,可以在 Amazon Free Tier 类别中使用。有关更多信息,请参阅 Amazon ParallelCluster UI 成本。
在本教程中,您将使用 CloudFormation 快速创建模板
注意
从版本 3.3.0 开始,Amazon ParallelCluster 通过集群配置参数 SlurmSettings/Database 支持 Slurm 会计。
注意
快速创建模板用作一个示例。此模板并不涵盖 Slurm 会计数据库服务器的所有可能用例。您负责创建配置和容量适合您的生产工作负载的数据库服务器。
先决条件:
-
Amazon ParallelCluster已安装 安装 Amazon ParallelCluster 命令行界面 (CLI)。
-
您拥有 EC2 密钥对。
-
您在其中部署快速创建模板的区域支持 Amazon Aurora MySQL Serverless v2。有关更多信息,请参阅适用于 Aurora MySQL 的 Aurora Serverless v2。
步骤 1:为 Amazon ParallelCluster 创建 VPC 和子网
要将提供的 CloudFormation 模板用于 Slurm 会计数据库,您必须已经设置好可供集群使用的 VPC。您可以手动设置,也可以在使用 Amazon ParallelCluster 命令行界面配置和创建集群的过程中进行设置。如果您已经使用 Amazon ParallelCluster,则可能已经具有可用来部署集群和数据库服务器的 VPC。
步骤 2:创建数据库堆栈
使用 CloudFormation 快速创建模板
-
数据库服务器凭证,特别是管理员用户名和密码。
-
Amazon Aurora 无服务器集群的大小。这取决于预期的集群负载。
-
网络参数,特别是目标 VPC 和子网或用于创建子网的 CIDR 块。
为您的数据库服务器选择适当的凭证和大小。对于网络选项,您必须使用 Amazon ParallelCluster 集群部署到的同一个 VPC。您可以为数据库创建子网并将其作为输入传递给模板。或者,为两个子网提供两个不相交的 CIDR 块,然后让 CloudFormation 模板为 CIDR 块创建这两个子网。确保 CIDR 块不与现有子网重叠。如果 CIDR 块与现有子网重叠,则无法创建堆栈。
创建数据库服务器需要几分钟时间。
步骤 3:在启用 Slurm 会计的情况下创建集群
提供的 CloudFormation 模板可生成一个包含部分已定义输出的 CloudFormation 堆栈。从 Amazon Web Services Management Console中,您可以在 CloudFormation 堆栈视图的输出选项卡中查看输出。要启用 Slurm 会计,必须在 Amazon ParallelCluster 集群配置文件中使用下面的一些输出:
-
DatabaseHost
:用于 SlurmSettings/Database/Uri 集群配置参数。 -
DatabaseAdminUser
:用于 SlurmSettings/Database/UserName 集群配置参数值。 -
DatabaseSecretArn
:用于 SlurmSettings/Database/PasswordSecretArn 集群配置参数。 -
DatabaseClientSecurityGroup
:这是 HeadNode/Networking/SecurityGroups 配置参数中定义的附加到集群头节点的安全组。
使用输出值更新您的集群配置文件 Database
参数。使用 pcluster CLI 创建集群。
$
pcluster create-cluster -n
cluster-3.x
-cpath/to/cluster-config.yaml
创建集群后,您可以开始使用 Slurm 会计命令,例如 sacctmgr
或 sacct
。