使用外部集群创建集群 Slurmdbd 会计 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用外部集群创建集群 Slurmdbd 会计

学习如何使用外部配置和创建集群 Slurmdbd 会计。有关更多信息,请参阅 。Slurm 会计 Amazon ParallelCluster

使用 Amazon ParallelCluster 命令行界面 (CLI) 或 API 时,您只需为创建或更新 Amazon ParallelCluster 映像和集群时创建的 Amazon 资源付费。有关更多信息,请参阅使用的Amazon 服务 Amazon ParallelCluster

Amazon ParallelCluster 用户界面基于无服务器架构构建,你可以在其中使用它 Amazon Free Tier 大多数情况下的类别。有关更多信息,请参阅 Amazon ParallelCluster UI 成本

在本教程中,您将使用 Amazon CloudFormation 快速创建模板来创建必要的组件,以便在与集群相同的 VPC 上部署 Slurmdbd 实例。该模板会为集群与数据库之间的连接创建基本的联网和安全配置。

注意

从开始version 3.10.0, Amazon ParallelCluster 支持带有集群配置参数的外部 Slurmdbd。SlurmSettings / ExternelSlurmdbd

注意

快速创建模板用作一个示例。此模板并不涵盖所有可能的使用案例。您负责创建一个外部 Slurmdbd,其配置和容量应适合您的生产工作负载。

先决条件:

步骤 1:创建 Slurmdbd 堆栈

在本教程中,使用CloudFormation 快速创建模板 (us-east-1) 创建 Slurmdbd 堆栈。该模板需要以下输入:

网络连接
  • VPCId:用于启动 Slurmdbd 实例的 VPC ID。

  • SubnetId:用于启动 Slurmdbd 实例的子网 ID。

  • PrivatePrefix:VPC 的 CIDR 前缀。

  • PrivateIp:要分配给 Slurmdbd 实例的辅助私有 IP。

数据库连接
  • DBMSClientSG:要附加到 Slurmdbd 实例的安全组。该安全组应允许数据库服务器和 Slurmdbd 实例之间的连接。

  • DBMSDatabase名称:数据库的名称。

  • DBMSUsername:数据库的用户名。

  • DBMSPasswordSecretArn:包含数据库密码的密钥。

  • DBMSUri:数据库服务器的 URI。

实例设置
  • InstanceType:用于 slurmdbd 实例的实例类型。

  • KeyName:用于 slurmdbd 实例的亚马逊密 EC2 钥对。

Slurmdbd 设置
  • AMIID:Slurmdbd 实例的 AMI。AMI 应该是 ParallelCluster AMI。 ParallelCluster AMI 的版本决定了 Slurmdbd 的版本。

  • MungeKeySecretArn: 包含 munge 密钥的密钥,用于对 Slurmdbd 和集群之间的通信进行身份验证。

  • SlurmdbdPort: slurmdbd 使用的端口号。

  • EnableSlurmdbdSystemService:启用 slurmdbd 作为系统服务,让它在实例启动时运行。

警告

如果数据库是由不同版本的创建的 SlurmDB,请勿使用 Slurmdbd 作为系统服务。

如果数据库包含大量条目,则 Slurm Database Daemon (SlurmDBD) 可能需要几十分钟才能更新数据库,并且在此时间间隔内没有响应。

升级之前 SlurmDB,对数据库进行备份。有关更多信息,请参阅 。Slurm 文档

步骤 2:使用外部集群创建集群 Slurmdbd 已启用

提供的 Amazon CloudFormation 模板会生成一个包含一些已定义输出的 Amazon CloudFormation 堆栈。

从中 Amazon Web Services Management Console,查看 Amazon CloudFormation 堆栈中的 “输出” 选项卡,查看创建的实体。要启用 Slurm 记账,其中一些输出必须在 Amazon ParallelCluster 配置文件中使用:

此外,在 Amazon CloudFormation 堆栈视图的 “参数” 选项卡中:

使用输出值更新集群配置文件数据库参数。使用 pcluster Amazon CLI 创建集群。

$ pcluster create-cluster -n cluster-3.x-c path/to/cluster-config.yaml

创建集群后,您可以开始使用 Slurm 记账命令,例如sacctmgrsacct

警告

和外部ParallelCluster之间的流量 SlurmDB 未加密。建议运行集群和外部集群 SlurmDB 在可信的网络中。