本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用创建集群 Slurm 会计
学习如何使用配置和创建集群 Slurm 会计。有关更多信息,请参阅 Slurm 用会计 Amazon ParallelCluster。
使用 Amazon ParallelCluster 命令行界面 (CLI) 或时API,您只需为创建或更新 Amazon ParallelCluster 映像和集群时创建的 Amazon 资源付费。有关更多信息,请参阅 Amazon 使用的服务 Amazon ParallelCluster。
Amazon ParallelCluster 用户界面基于无服务器架构构建,在大多数情况下,您可以在 Amazon 免费套餐类别中使用它。有关更多信息,请参阅 Amazon ParallelCluster 用户界面成本。
在本教程中,您将使用CloudFormation 快速创建的模板 (us-east-1) 为我的无
注意
从 3.3.0 版开始,支持 Amazon ParallelCluster Slurm 使用集群配置参数 SlurmSettings/数据库进行核算。
注意
快速创建模板用作一个示例。此模板并未涵盖所有可能的用例 Slurm 会计数据库服务器。您负责创建配置和容量适合您的生产工作负载的数据库服务器。
先决条件:
-
Amazon ParallelCluster 已安装。
-
Amazon CLI 已安装并配置。
-
你有一个 A mazon EC2 密钥对。
-
您部署快速创建模板的区域支持 Amazon Aurora 我的SQL无服务器 v2。有关更多信息,请参阅搭载 Aurora My 的 Aurora Serverless v2。SQL
步骤 1:为创建VPC和子网 Amazon ParallelCluster
要将提供的 CloudFormation 模板用于 Slurm 记账数据库,您必须VPC为集群准备就绪。您可以手动设置,也可以在使用 Amazon ParallelCluster 命令行界面配置和创建集群的过程中进行设置。如果您已经使用过 Amazon ParallelCluster,则可能已VPC准备好部署群集和数据库服务器。
步骤 2:创建数据库堆栈
使用CloudFormation 快速创建模板 (us-east-1) 为以下对象创建数据库堆栈
-
数据库服务器凭证,特别是管理员用户名和密码。
-
Amazon Aurora 无服务器集群的大小。这取决于预期的集群负载。
-
网络参数,特别是用于创建子网的目标VPC和子网或CIDR块。
为您的数据库服务器选择适当的凭证和大小。对于联网选项,您需要使用与部署集 Amazon ParallelCluster 群相同的VPC选项。您可以为数据库创建子网并将其作为输入传递给模板。或者,为两个子网提供两个不相交的CIDR块,然后让 CloudFormation 模板为区块创建两个子网。CIDR确保CIDR区块不与现有子网重叠。如果CIDR区块与现有子网重叠,则堆栈创建失败。
创建数据库服务器需要几分钟时间。
步骤 3:使用创建集群 Slurm 已启用记账
提供的 CloudFormation 模板生成一个包含一些已定义输出的 CloudFormation 堆栈。从中 Amazon Web Services Management Console,您可以在 CloudFormation 堆栈视图的 “输出” 选项卡中查看输出。要启用 Slurm 记账,其中一些输出必须在 Amazon ParallelCluster 集群配置文件中使用:
-
DatabaseHost
:用于 SlurmSettings/Database/Uri 集群配置参数。 -
DatabaseAdminUser
:用于 SlurmSettings/Database/UserName 集群配置参数值。 -
DatabaseSecretArn
:用于 SlurmSettings/Database/PasswordSecretArn 集群配置参数。 -
DatabaseClientSecurityGroup
:这是 HeadNode/Networking/SecurityGroups 配置参数中定义的附加到集群头节点的安全组。
使用输出值更新您的集群配置文件 Database
参数。使用pclusterCLI创建集群。
$
pcluster create-cluster -n
cluster-3.x
-cpath/to/cluster-config.yaml
创建集群后,您可以开始使用 Slurm 记账命令,例如sacctmgr
或sacct
。