文档历史记录 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文档历史记录

下表描述了 Amazon ParallelCluster 用户指南 的主要更新和新功能。我们还经常更新文档来处理您发送给我们的反馈意见。

变更说明日期

Amazon ParallelCluster版本 3.2.1

Amazon ParallelCluster版本 3.2.1

增强增强增强功能:

  • 改进将主机路由表关联到不同网卡的逻辑,以更好地支持具有多个 NIC 的 EC2 实例。

更改

  • 将 NVIDIA 驱动程序升级到版本 470.141.03。

  • 将 NVIDIA 结构管理器升级到版本 470.141.03。

  • 禁用cron工作任务man-dbmlocate,这可能会对节点性能产生负面影响。

  • 将英特尔 MPI 库升级到 2021.6.0.602。

  • 将 Python 从 3.7.10 升级到 3.7.13 以应对此安全风险。

错误修复:

  • 避免失败DescribeCluster集群配置不可用时。

有关更改的详细信息,请参阅CHANGELOG文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2022 年 10 月 3 日

Amazon ParallelCluster版本 3.2.2.2.2.2.2.0

Amazon ParallelCluster版本 3.2.0

增强增强增强功能:

更改

  • 将 EFA 安装程序升级为版本 1.17.2。

    • EFA 驱动程序:efa-1.16.0-1

    • EFA 配置:efa-config-1.10-1

    • E要求:efa-profile-1.5-1

    • Libfabriclibfabric-aws-1.16.0~amzn2.0-1

    • RDMA 内核:rdma-core-41.0-2

    • Open MPIopenmpi40-aws-4.1.4-2

  • 将 NICE DCV 升级到版本 2022.0-12760。

  • 将 NVIDIA 驱动程序升级到版本 470.129.06。

  • 将 NVIDIA 结构管理器升级到版本 470.129.06。

  • 将根卷和其他卷中的默认 EBS 卷类型从 gp2 更改为 gp3。

  • 对 Lustre 文件系统的 FSx 所做的更改Amazon ParallelCluster:

    • 将原定设置部署类型更改为Scratch_2.

    • 将 Lustre 服务器版本更改为2.12.

  • 不需要PlacementGroup/Enabled要设置为true当传递现有的PlacementGroup/Id.

  • 不允许设置PlacementGroup/Id什么时候PlacementGroup/Enabled明确将设置为false.

  • Addparallelcluster:cluster-name标记所有由创建的资源Amazon ParallelCluster.

  • Addlambda:ListTagslambda:UntagResourceParallelClusterUserRole使用者Amazon ParallelCluster用于集群更新的 API 堆栈。

  • 将 IPv6 访问限制为IMDS当配置参数时,仅限根和集群管理员用户HeadNode/Imds/SecuredEnable.

  • 使用自定义 AMI 时,使用 AMI 根卷大小而不是 ParallelCluster 默认为 35 GiB。可以在群集配置文件中更改该值。

  • 配置参数时自动禁用计算队列Scheduling/SlurmQueues/ComputeResources/SpotPrice低于要求的最低竞价请求履行价格。

  • Showrequested_valuecurrent_value更新期间添加或删除分区时更改集中的值。

  • 禁用aws-ubuntu-eni-helper服务,可在深度学习 AMI 中使用,以避免与之发生冲突configure_nw_interface.sh配置具有多个网卡的实例时。

  • 删除对 Python 3.6 的支持。

  • 使用多个网卡配置实例时,将所有网络接口的 MTU 设置为 9001。

  • 配置计算节点 FQDN 时删除尾随的圆点。

  • 管理中的静态节点POWERING_DOWN.

  • 不替换中的动态节点POWER_DOWN因为作业可能仍在运行。

  • 重启clustermgtdslurmctld只有在集群更新时才使用守护程序Scheduling参数在集群配置中更新。

  • Updateslurmctldslurmd systemd服务文件。

  • 当配置参数时,仅限根和集群管理员用户访问 IMDS 的 IPv6HeadNode/Imds/SecuredEnable.

  • 设置 Slurm 配置AuthInfo=cred_expire=70为了减少排队的时间,当节点不可用时,任务必须等待才能重新启动。

  • 升级第三方食谱依赖关系:

    • apt-7.4.2(来自 apt-7.4.0)

    • 第 4.5.2 行(来自第 4.0.1 行)

    • openssh-2.10.3(来自 openssh-2.9.1)

    • pyenv-3.5.1(来自 pyenv-3.4.2)

    • selinux-6.0.4(来自 selinux-3.1.1)

    • yum-7.4.0(来自 yum-6.1.1)

    • yum-epel-4.5.0(来自 yum-epel-4.1.2)

错误修复:

  • 修复默认行为以跳过Amazon ParallelCluster构建自定义 AMI 时的验证和测试步骤。

  • 修复文件句柄泄漏问题computemgtd.

  • 修复因启动的实例在 EC2 中不可用而偶尔导致启动的实例立即终止的争用情况 DescribeInstances 响应。

  • 修复了对的支持DisableSimultaneousMultithreading使用 Arm 处理器的实例类型的参数。

  • 修复Amazon ParallelCluster从先前版本升级时 API 堆栈更新失败。添加用于ListImagePipelineImages中的操作EcrImageDeletionLambdaRole.

  • 修复Amazon ParallelClusterAPI 添加了创建 FSx for Lustre 文件系统时缺少从 Amazon S3 导入或导出所需的权限。

有关更改的详细信息,请参阅CHANGELOG文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2022 年 7 月 27 日

Amazon ParallelCluster今年迄今为止仅限文档的更新

Amazon ParallelCluster仅限文档的更新。

章节更新:

2022 年 7 月 6 日

Amazon ParallelCluster版本 3.1.2

Amazon ParallelCluster版本 3.1.4

增强增强增强功能:

更改

  • 将 Slurm 升级到版本 21.08.8-2。

  • 在 JWT 支持下构建 Slurm。

  • 不需要PlacementGroup/Enabled要设置为true当传递现有的PlacementGroup/Id.

  • Addlambda:TagsResourceParallelClusterUserRole使用者 ParallelCluster 用于创建集群和创建镜像的 API 堆栈。

错误修复:

  • 修复了在使用时导出集群日志的功能export-cluster-logs命令使用--filters选项.

  • 修复Amazon Batch要使用的 Docker 入口点/home用于协调多节点并行任务执行的共享目录。

  • 将 slurm 不健康的静态节点设置为 down 时重置节点地址,以避免将容量不足的静态节点故障视为引导故障节点。

有关更改的详细信息,请参阅CHANGELOG文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2022 年 5 月 16 日

Amazon ParallelCluster版本 2.11.7

Amazon ParallelCluster版本 2.11.7 已发布。

更改

  • 将 Slurm 升级到版本 20.11.9。

有关更改的详细信息,请参阅CHANGELOG文件aws-parallelclpackages GitHub.

2022 年 5 月 13 日

Amazon ParallelCluster版本 3.1.2

Amazon ParallelCluster版本 3.1.3

增强增强增强功能:

  • 在创建 HOME 目录的同时执行 SSH 密钥创建,例如,在 SSH 登录期间、切换到另一个用户时以及以其他用户身份执行命令时。

  • 在配置参数中添加对 FQDN 和 LDAP 可分辨名称的支持DirectoryService/DomainName. 新的验证器现在会检查这两种语法。

  • 来自的update_directory_service_password.sh部署在头节点上的脚本支持手动更新 SSSD 配置中的 Active Directory 密码。密码由检索Amazon Secrets Manager如群集配置所示。

  • 增加对在没有默认 VPC 的环境中部署 API 基础设施的支持。

更改

  • 在 x86_64 官方 AMI 和通过创建的 AMI 中禁用更深层的 C-Statebuild-image命令,以保证高性能和低延迟。

  • 操作系统包更新和安全补丁。

  • 将 Amazon Linux 2 基础镜像更改为使用内核 5.10 的 AMI。

错误修复:

  • 修复构建映像堆栈中的问题DELETE_FAILED成功构建映像后,由于新的 EC2 Image Builder 策略。

  • 修复配置参数DirectoryService/DomainAddr当 ldap_uri SSSD 属性包含多个域地址时,将其转换为 ldap_uri SSSD 属性。

有关更改的详细信息,请参阅CHANGELOG文件aws-parallelcl,以及aws-parallelcluster-cookbook软件包 GitHub.

2022 年 4 月 20 日

Amazon ParallelCluster版本 2.11.6

Amazon ParallelCluster版本 2.11.6 已发布。

增强增强增强功能:

  • 改进异常管理,以防网络缺失。

更改

  • 操作系统包更新和安全补丁。

有关更改的详细信息,请参阅CHANGELOG文件aws-parallelclpackages GitHub.

2022 年 4 月 19 日

Amazon ParallelCluster版本 3.1.2

Amazon ParallelCluster版本 3.1.2

更改

  • 将 Slurm 升级到版本21.08.6来自21.08.5)。

错误修复:

  • 修复更新/etc/hosts当集群部署在没有互联网访问权限的子网中时,文件位于计算节点上。

  • 修复计算节点引导程序,等待临时驱动器初始化后再加入集群。

有关更改的详细信息,请参阅CHANGELOG文件aws-parallelclpackages GitHub.

2022 年 3 月 2 日

Amazon ParallelCluster版本 2.11.5

Amazon ParallelCluster版本 2.11.5 已发布。

增强增强增强功能:

  • 添加对NEW_CHANGED_DELETED作为 FSx for LustreAutoImportPolicy选项.

  • 取消对 SGE 和扭矩调度器的支持。

  • 禁用log4j-cve-2021-44228-hotpatch在 Amazon Linux 上提供服务,以避免潜在的性能下降。

更改

  • 将 NVIDIA 驱动程序升级到版本470.103.01来自470.82.01)。

  • 将 NVIDIA 结构管理器升级到版本470.103.01来自470.82.01)。

  • 将 CUDA 库升级到版本11.4.4来自11.4.3)。

  • Intel MPI已更新至 2021 版本更新 4(从 2019 版本更新 8 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 4.

  • 将头节点创建超时延长至一小时。

错误修复:

  • 通过浏览器修复 DCV 连接。

  • 修复 YAML 引号以防止自定义标签被解析为数字。

有关更改的详细信息,请参阅CHANGELOG文件aws-parallelclpackages GitHub.

2022 年 3 月 1 日

Amazon ParallelCluster版本 3.1.1

Amazon ParallelCluster版本 3.1.1

  • 通过以下方式添加对多用户群集环境的支持与 Active Directory (AD)管理通过Amazon Directory Service.

  • 添加对UseEc2Hostnames在集群配置文件中。当设置为 true 时,使用 EC2 的默认主机名(例如 ip-1-2-3-4)作为计算节点。

  • 添加了对创建集群的支持无法访问互联网的子网.

  • 为每个队列添加对多个计算实例类型的支持。

  • 添加对在装有 NVIDIA 卡的 ARM 实例上使用 Slurm 进行 GPU 调度的支持。

  • 为添加缩写标志cluster-name(-n),region(-r),image-id(-i)和cluster-configuration/image-configuration(-c) 到Amazon ParallelCluster来自:

  • 添加对NEW_CHANGED_DELETEDFSx for LustreAutoImportPolicy参数。

  • Addparallelcluster:compute-resource-name将标签标记为 EC2LaunchTemplates计算节点使用的资源。

  • 改进在集群内创建的安全组,以便在以下情况下允许来自自定义安全组的入站连接SecurityGroups为某些头节点和/或队列指定了参数。

  • 安装适用于 ARM 的 NVIDIA 驱动程序和 CUDA 库。

更改

  • 将 Slurm 升级到版本21.08.5来自20.11.8)。

  • 将 Slurm 插件升级到版本21.08来自20.11)。

  • 将 NICE DCV 升级到版本2021.3-11591来自2021.1-10851)。

  • 将 NVIDIA 驱动程序升级到版本470.103.01来自470.57.02)。

  • 将 NVIDIA 结构管理器升级到版本470.103.01来自470.57.02)。

  • 将 CUDA 升级到版本11.4.4来自11.4.0)。

  • Intel MPI已更新至 2021 版本更新 4(从 2019 版本更新 8 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 4.

  • 将 pMix 升级到版本3.2.3来自3.1.5)。

  • 移除将失败的计算节点转储到/home/logs/compute. 计算节点日志文件可在以下位置找到 CloudWatch 在 EC2 控制台日志中。

  • 启用抑制潜力SlurmQueuesComputeResources长度验证器。

  • 在 Amazon Linux 2 上的实例启动时禁用软件包更新。

  • Enabled ImageBuilder 构建时增强了图像元数据Amazon ParallelCluster自定义镜像。

  • 明确设置cloud-init数据源为 EC2。这样可以节省 Ubuntu 和 CentOS 平台的启动时间。

  • 在计算队列启动模板名称中使用计算资源名称而不是实例类型。

  • 将 stderr 和 stdout 重定向到 CLI 日志文件,以防在 pcluster CLI 输出中出现不需要的文本。

  • 将配置/安装配方移至单独调用的食谱和主食谱。现有入口保持不变,向后兼容。

  • 在 AMI 构建期间下载英特尔 HPC 平台的依赖关系,以避免在集群创建期间联系互联网。

  • 请勿脱光衣服-配置 Slurm 节点时来自计算资源名称。

  • 未安装 NVIDIA 驱动程序时,请勿在 Slurm 中配置 GPU。

  • 修复ecs:ListContainerInstances权限BatchUserRole.

  • 修复了在未指定前缀的情况下导出集群日志的问题,之前已导出到None前缀。

  • 修复集群更新失败时无法执行回滚的问题。

  • 修复ecs:ListContainerInstances权限BatchUserRole.

  • 修复RootVolume的架构HeadNode如果不支持,则引发错误KmsKeyId已指定。

  • 修复 Amazon FSx 缺少要显示的指标的问题 CloudWatch “Dackag

  • 修复EfaSecurityGroupValidator. 以前,在提供自定义安全组并启用 EFA 时,它有可能产生虚假故障。

有关更改的详细信息,请参阅CHANGELOG文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2022 年 2 月 10 日

Amazon ParallelCluster版本 3.0.2

Amazon ParallelCluster版本 3.0.3

有关更改的详细信息,请参阅CHANGELOG的文件aws-parallelclaws-parallelcluster-cookbook软件包 GitHub.

2022 年 1 月 17 日

Amazon ParallelCluster版本 2.11.4

Amazon ParallelCluster版本 2.11.4 已发布。

更改包括:

  • CentOS8 个支撑已删除。CentOS8 将于 2021 年 12 月 31 日达到生命周期终结 (EOL)。

  • 升级Slurm Workload Manager到版本 20.11.8。

  • 将 Cinc 客户端升级到17.2.29.

  • NICE DCV已更新至 NICE DCV 2021.2-11190。有关更多信息,请参阅DCV 2021.2-11190 — 2021 年 10 月 11 日在里面NICE DCV 管理员指南.

  • 将 NVIDIA 驱动程序升级到版本470.82.01来自460.73.01)。

  • 将 CUDA 库升级到版本11.4.3来自11.3.0)。

  • 将 NVIDIA 结构管理器升级到470.82.01.

  • 在 Amazon Linux 2 上的实例启动时禁用软件包更新。

  • 禁用无人参与的软件包更新Ubuntu和Amazon Linux 2

  • 安装 Python 3 版本的Amazon CloudFormation帮助程序脚本上CentOS7.Ubuntu 18.04. (这些已经在亚马逊 Linux 2 上使用过Ubuntu20.04.)

修复包括:

  • 禁用更新ec2_iam_role参数。

  • 修复CpuOptions的启动模板中的配置T2实例。

有关更改的详细信息,请参阅CHANGELOG的文件aws-parallelcl,aws-parallelcluster-cookbookaws-parallelcluster-node软件包 GitHub.

2021 年 12 月 20 日

Amazon ParallelCluster版本 3.0.2

Amazon ParallelCluster版本 3.0.2

升级Elastic Fabric Adapter安装为版本 1.14.1

  • EFA 配置:efa-config-1.9-1来自efa-config-1.9)

  • E要求:efa-profile-1.5-1来自efa-profile-1.5)

  • EFA 内核模块:efa-1.14.2来自efa-1.13.0)

  • RDMA 内核:rdma-core-37.0来自rdma-core-35)

  • Libfabriclibfabric-1.13.2来自libfabric-1.13.0)

  • Open MPIopenmpi40-aws-4.1.1-2(没有变化)

如果实例类型支持 GpuDirect RDMA,则始终处于启用状态。这些区域有:GdrSupport配置选项无效。

有关更改的详细信息,请参阅CHANGELOG的文件aws-parallelcl,aws-parallelcluster-cookbookaws-parallelcluster-node软件包 GitHub.

2021 年 11 月 5 日

Amazon ParallelCluster版本 2.11.3

Amazon ParallelCluster版本 2.11.3 已发布。

  • 修复pcluster createami由于以下故障Son of Grid Engine来源不可用arc.liv.ac.uk.

升级Elastic Fabric Adapter安装程序到 1.14.1(从 1.13.0)

  • EFA 配置:efa-config-1.9-1来自efa-config-1.9)

  • E要求:efa-profile-1.5-1(没有变化)

  • EFA 内核模块:efa-1.14.2来自efa-1.13.0)

  • RDMA 内核:rdma-core-37.0来自rdma-core-35.0amzn)

  • Libfabriclibfabric-1.13.2来自libfabric-1.13.0amzn1.0)

  • Open MPIopenmpi40-aws-4.1.1-2(没有变化)

如果实例类型支持 GpuDirect RDMA,则始终处于启用状态。

有关更改的详细信息,请参阅CHANGELOG的文件aws-parallelcl,aws-parallelcluster-cookbookaws-parallelcluster-node软件包 GitHub.

2021 年 11 月 3 日

Amazon ParallelCluster版本 3.0.1

Amazon ParallelCluster版本 3.0.1

集群配置迁移工具

  • 客户现在可以从中迁移他们的群集配置Amazon ParallelCluster版本 2 格式转换为基于 YAML 的格式Amazon ParallelCluster版本 3 格式。有关更多信息,请参阅 pcluster3-config-converter

可以停止头节点

  • 停止计算队列后,可以使用 Amazon EC2 控制台或停止实例 Amazon CLI命令。

默认区域读取~/.aws/config文件

  • 对于pcluster命令,如果未在配置文件、环境或命令行中指定区域,则使用在region中的设置[default]部分~/.aws/config已使用文件。

有关更改的详细信息,请参阅CHANGELOG的文件aws-parallelcl,aws-parallelcluster-cookbookaws-parallelcluster-node软件包 GitHub.

2021 年 10 月 27 日

Amazon ParallelCluster版本 3.0.0

Amazon ParallelCluster版本 3.0.0

Support 通过Amazon API Gateway 进行集群管理

  • 客户现在可以使用Amazon API Gateway 通过 HTTP 终端节点管理和部署集群。这为脚本化或事件驱动的工作流程开辟了新的可能性。

    这些区域有:Amazon ParallelCluster为了与此 API 兼容,还重新设计了命令行接口 (CLI),并包括一个新的 JSON 输出选项。这项新功能使客户也可以使用 CLI 实现类似的构造块功能。

改进了自定义 AMI 创建的功能

  • 现在,客户可以使用更强大的流程来使用 EC2 Image Builder 创建和管理自定义 AMI。自定义 AMI 现在可以通过单独的管理了Amazon ParallelCluster配置文件,可以使用pcluster build-image命令在Amazon ParallelCluster命令行界面。

有关更改的详细信息,请参阅CHANGELOG的文件aws-parallelcl,aws-parallelcluster-cookbookaws-parallelcluster-node软件包 GitHub.

2021 年 9 月 10 日

Amazon ParallelCluster版本 2.11.2

Amazon ParallelCluster版本 2.11.2 已发布。

更改包括:

  • 如果在基本 AMI 中安装了 EFA,请勿在引导时安装启用 GpuDirect RDMA (GDR) 的 EFA。

  • 的锁定版本nvidia-fabricmanager软件包将与安装的 NVIDIA 驱动程序版本保持同步Amazon ParallelCluster.

  • Slurm:修复了在节点开机时群集停止并重新启动时导致的问题。

  • Elastic Fabric Adapter安装程序已更新到 1.13.0:

    • EFA 配置:efa-config-1.9(没有变化)

    • E要求:efa-profile-1.5-1(没有变化)

    • EFA 内核模块:efa-1.13.0(没有变化)

    • RDMA 内核:rdma-core-35.0amzn来自rdma-core-32.1amzn)

    • Libfabriclibfabric-1.13.0amzn1.0来自来自的libfabric-1.11.2amzn1.1)

    • Open MPIopenmpi40-aws-4.1.1-2(没有变化)

  • 使用带有预安装的 EFA 包的自定义 AMI 时,在节点引导时不会对 EFA 进行任何更改。保留原始 EFA 包部署。

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelclaws-parallelcluster-cookbook软件包 GitHub.

2021 年 8 月 27 日

Amazon ParallelCluster版本 2.11.1

Amazon ParallelCluster版本 2.11.1

更改包括:

  • 使用挂载文件系统noatimemount 选项用于在读取文件时停止记录上次访问时间。这提高了远程文件系统的性能。

  • Elastic Fabric Adapter安装程序已更新到 1.12.3:

    • EFA 配置:efa-config-1.9来自efa-config-1.8-1)

    • E要求:efa-profile-1.5-1(没有变化)

    • EFA 内核模块:efa-1.13.0来自efa-1.12.3)

    • RDMA 核心:rdma-core-32.1amzn(无更改)

    • Libfabric:libfabric-1.11.2amzn1.1(无更改)

    • Open MPIopenmpi40-aws-4.1.1-2(没有变化)

  • 重试安装aws-parallelcluster使用时在头节点上打包Amazon Batch作为调度器。

  • 在建造时避免故障SGE在超过 31 个 vCPUs 的实例类型上。

  • 已固定到亚马逊版本 1.247347.6 CloudWatch 代理可避免版本 1.247348.0 中出现的问题。

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelclaws-parallelcluster-cookbook软件包 GitHub.

2021 年 7 月 23 日

Amazon ParallelCluster版本 2.11.0

Amazon ParallelCluster版本 2.11.0 已发布。

更改包括:

  • 增加了对 的支持Ubuntu20.04 (ubuntu2004) 并取消了对以下内容的支持Ubuntu16.04 (ubuntu1604) 和Amazon Linux (alinux)。Amazon Linux 2alinux2)仍然完全支持。有关更多信息,请参阅 base_os

  • 删除了对 3.6 以下版本的 Python 版本的支持。

  • 默认根卷大小增加到 35 Gibibyte (GiB)。有关更多信息,请参阅 compute_root_volume_sizemaster_root_volume_size

  • Elastic Fabric Adapter安装程序已更新到 1.12.2:

    • EFA 配置:efa-config-1.8-1来自来自的efa-config-1.7)

    • E要求:efa-profile-1.5-1来自来自的efa-profile-1.4)

    • EFA 内核模块:efa-1.12.3来自来自的efa-1.10.2)

    • RDMA 内核:rdma-core-32.1amzn来自来自的rdma-core-31.2amzn)

    • Libfabriclibfabric-1.11.2amzn1.1来自来自的libfabric-1.11.1amzn1.0)

    • Open MPIopenmpi40-aws-4.1.1-2来自来自的openmpi40-aws-4.1.0)

  • 升级Slurm到版本20.11.7来自来自的20.02.7)。

  • 在上安装 SSM 代理centos7centos8. (SSM 代理已预装在alinux2,ubuntu1804,以及ubuntu2004。)

  • SGE: 始终使用短名称作为主机名筛选条件qstat.

  • 使用实例元数据服务版本 2 (IMDSv2) 而不是实例元数据服务版本 1 (IMDSv1) 来检索实例元数据。有关更多信息,请参阅适用于 Linux 的 Amazon EC2 用户指南 中的实例元数据和用户数据

  • 将 NVIDIA 驱动程序升级到版本460.73.01来自来自的450.80.02)。

  • 将 CUDA 库升级到版本11.3.0来自来自的11.0)。

  • 将 NVIDIA 结构管理器升级到nvidia-fabricmanager-460.

  • 升级中使用的 PythonAmazon ParallelClustervirtualenvs to3.7.10来自来自的3.6.13)。

  • 将 Cinc 客户端升级到16.13.16.

  • 升级的第三方依赖项aws-parallelcluster-cookbook

    • apt-7.4.0来自来自的apt-7.3.0)。

    • iptables-8.0.0来自来自的iptables-7.1.0)。

    • line-4.0.1来自来自的line-2.9.0)。

    • openssh-2.9.1来自来自的openssh-2.8.1)。

    • pyenv-3.4.2来自来自的pyenv-3.1.1)。

    • selinux-3.1.1来自来自的selinux-2.1.1)。

    • ulimit-1.1.1来自来自的ulimit-1.0.0)。

    • yum-6.1.1来自来自的yum-5.1.0)。

    • yum-epel-4.1.2来自来自的yum-epel-3.3.0)。

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2021 年 7 月 1 日

Amazon ParallelCluster版本 2.10.4

Amazon ParallelCluster版本 2.10.4 已发布。

更改包括:

  • 升级Slurm到版本20.02.7来自来自的20.02.4)。

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelclpackages GitHub.

2021 年 5 月 15 日

Amazon ParallelCluster版本 2.10.3

Amazon ParallelCluster版本 2.10.3 已发布。

更改包括:

  • 增加了对 的支持Ubuntu18.04 和基于 ARM 的亚马逊 Linux 2Amazon中的 Graviton 实例Amazon中国和Amazon GovCloud (US)区域。

  • Elastic Fabric Adapter安装程序已更新到 1.11.2:

    • EFA 配置:efa-config-1.7(没有变化)

    • E要求:efa-profile-1.4来自来自的efa-profile-1.3)

    • EFA 内核模块:efa-1.10.2(没有变化)

    • RDMA 核心:rdma-core-31.2amzn(无更改)

    • Libfabric:libfabric-1.11.1amzn1.0(无更改)

    • Open MPIopenmpi40-aws-4.1.0(没有变化)

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelclpackages GitHub.

2021 年 3 月 18 日

Amazon ParallelCluster版本 2.10.2

Amazon ParallelCluster版本 2.10.2 已发布。

更改包括:

  • 改进集群配置验证,以便在调用 Amazon EC2 时使用集群目标 AMIRunInstancesAPI 操作在--dry-run模式.

  • 更新中使用的 Python 版本Amazon ParallelCluster虚拟环境到 3.6.13。

  • 修复sanity_check适用于 Arm 实例类型。

  • 修复enable_efa使用时centos8用Slurm调度器或 Arm 实例类型。

  • Run(运行)apt update在非交互模式下 (-y)。

  • 修复encrypted_ephemeral= truealinux2centos8.

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelclpackages GitHub.

2021 年 3 月 2 日

Amazon ParallelCluster版本 2.10.1

Amazon ParallelCluster版本 2.10.1 已发布。

更改包括:

  • 增加了对非洲(开普敦)的支持 (af-south-1)、欧洲(米兰)(me-south-1)和中东(巴林)(me-south-1) 区域。启动时,支持受到以下方式限制:

    • 这些区域均不支持 FSx for Lustre 和基于 ARM 的 Graviton 实例。

    • Amazon Batch在非洲(开普敦)中不受支持。

    • Amazon EBSio2gp3非洲(开普敦)和欧洲(米兰)区域不支持卷类型。

  • 添加了对Amazon EBS的支持io2gp3卷类型。有关更多信息,请参阅[ebs]部分[raid]部分.

  • 增加了对 的支持Elastic Fabric Adapter在基于 ARM 的 Graviton2 实例上运行alinux2,ubuntu1804,或ubuntu2004. 有关更多信息,请参阅 Elastic Fabric Adapter

  • 在 Arm AMI 上安装 Arm 性能库 20.2.1 (alinux2,centos8,以及ubuntu1804)。有关更多信息,请参阅 Arm 性能库

  • Intel MPI更新到版本 2019 更新 8(从 2019 版本更新 7 更新)。有关更多信息,请参阅英特尔® MPI 库 2019 年更新 8.

  • 删除了了Amazon CloudFormation DescribeStacks来自的 API 操作调用Amazon BatchDocker 入口点用于结束因限制而导致的作业失败Amazon CloudFormation.

  • 改进了对Amazon EC2 的调用DescribeInstanceTypes验证集群配置时的 API 操作调用。

  • 亚马逊 Linux 2 Docker 镜像是在为 Amazon ECR Public 构建 Docker 镜像时提取的awsbatch调度器。

  • 默认的实例类型已从硬编码更改为t2.micro实例类型改为该地区的免费套餐实例类型 (t2.micro要么t3.micro,视地区而定)。没有免费套餐的区域默认为t3.micro实例类型。

  • Elastic Fabric Adapter安装程序已更新到 1.11.1:

    • EFA 配置:efa-config-1.7来自来自的efa-config-1.5)

    • E要求:efa-profile-1.3来自来自的efa-profile-1.1)

    • EFA 内核模块:efa-1.10.2(没有变化)

    • RDMA 内核:rdma-core-31.2amzn来自来自的rdma-core-31.amzn0)

    • Libfabriclibfabric-1.11.1amzn1.0来自来自的libfabric-1.10.1amzn1.1)

    • Open MPIopenmpi40-aws-4.1.0来自来自的openmpi40-aws-4.0.5)

  • 这些区域有:vpc_settings,vpc_id,以及master_subnet_id参数现在是必需的。

  • 这些区域有:nfsd头节点中的守护程序现在设置为使用至少 8 个线程。如果超过 8 个内核,它将使用与内核一样多的线程。当ubuntu1604已使用,该设置仅在节点重新启动后才会更改。

  • NICE DCV已更新至 NICE DCV 2020.2-9662。有关更多信息,请参阅DCV 2020.2-9662— 2020 年 12 月 4 日在里面NICE DCV 管理员指南.

  • 英特尔 MPI 和 HPC 软件包适用于Amazon ParallelCluster是从 ServicAmazon S3 中提取的。它们不再从英特尔百胜回购协议中撤出。

  • 更改了默认值systemdrunlevel 到multi-user.target在创建官方操作系统期间在所有操作系统上Amazon ParallelCluster来自 运行级别设置为graphical.target仅在启用 DCV 时在头节点上。这会阻止图形服务(例如x/gdm) 在不需要时停止运行。

  • 启用面向的支持p4d.24xlarge头节点上的实例。

  • 增加注册时最大重试次数SlurmAmazon Route 53 中的节点

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2020 年 12 月 22 日

Amazon ParallelCluster版本 2.10.0

Amazon ParallelCluster版本 2.10.0 已发布。

更改包括:

  • 增加了对 的支持CentOS总共8个Amazon Web Services 区域(之外的容量Amazon中国和Amazon GovCloud (US)区域)。已删除对以下内容的支持CentOS6.

  • 增加了对 的支持p4d.24xlarge计算节点的实例。

  • 使用新版本在 EFA 上添加了对 NVIDIA GpuDirect RDMA 的支持enable_efa_gdr设置。

  • 添加了对 Amazon FSx for Lustre 功能的支持。

  • 添加了亚马逊 CloudWatch 仪表板,包括头节点指标和轻松访问集群日志。有关更多信息,请参阅 亚马逊 CloudWatch 仪表板

  • 增加了对使用现有 Amazon S3 存储桶存储集群配置信息的支持,使用cluster_resource_bucket设置。

  • 增强增强的pcluster createami命令。

    • 增加了--post-install参数用于在构建 AMI 时使用安装后脚本。

    • 添加了一个验证步骤,该步骤在使用由其他版本创建的基本 AMI 时会失败Amazon ParallelCluster.

    • 添加了一个验证步骤,当所选操作系统与基本 AMI 中的操作系统不同时,该步骤将失败。

    • 添加了对使用 a 的支持Amazon ParallelClusterbasAMI MA

  • 增强增强的pcluster update命令。

    • 这些区域有:tags现在可以在更新期间更改设置。

    • 现在可以在更新期间调整队列的大小,而无需停止计算队列

  • 增加了all_or_nothing_batch的配置参数slurm_resume脚本。当True,slurm_resume只有当所有待处理任务需要的所有实例时,才会成功Slurm将可用。有关更多信息,请参阅简介all_or_nothing_batch启动在里面Amazon ParallelCluster维基开启 GitHub.

  • Elastic Fabric Adapter安装程序已更新到 1.10.1:

    • EFA 配置:efa-config-1.5来自来自的efa-config-1.4)

    • E要求:efa-profile-1.1来自来自的efa-profile-1.0.0)

    • EFA 内核模块:efa-1.10.2来自来自的efa-1.6.0)

    • RDMA 内核:rdma-core-31.amzn0来自来自的rdma-core-28.amzn0)

    • Libfabriclibfabric-1.11.1amzn1.0来自来自的libfabric-1.10.1amzn1.1)

    • Open MPIopenmpi40-aws-4.0.5来自来自的openmpi40-aws-4.0.3)

  • 在里面Amazon GovCloud (US)区域,启用对 NICE DCV 的支持和Amazon Batch.

  • 在里面Amazon中国区域,启用对适用于 Amazon FSx for Lustre 支持。

  • 将 NVIDIA 驱动程序升级到版本 450.80.02(从 450.51.05 起)。

  • 安装 NVIDIA Fabric Manager 以在支持的平台上启用 NVIDIA

  • 删除了默认区域us-east-1. 默认使用此查询顺序。

    • 在中指定的区域-r要么--region争论。

    • AWS_DEFAULT_REGION环境变量。

    • aws_region_name中的设置[aws]部分的Amazon ParallelCluster配置文件(默认为~/.parallelcluster/config)。

    • region中的设置[default]部分Amazon CLI配置文件(默认为~/aws/config)。

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2020 年 11 月 18 日

Amazon ParallelCluster版本 2.9.0

Amazon ParallelCluster版本 2.9.0 已发布。

更改包括:

  • 与配合使用时,增加了对计算队列中的多个队列和多个实例类型的支持Slurm Workload Manager. 使用队列时,不再使用 Auto Scaling 组Slurm. Amazon Route 53 托管区域现已与集群一起创建,用于计算节点的 DNS 解析Slurm使用调度程序。有关更多信息,请参阅 多队列模式

  • 增加了对 的支持NICE DCV基于 Arm 的系统Amazon基于引力的实例。

  • 添加了对在启动模板中不支持 CPU 选项的实例类型上禁用超线程的支持(例如*.metal实例类型)。

  • 为从头节点共享的文件系统添加了对 NFS 4 的支持。

  • 删除了面向的依赖项cfn-init当引导计算节点以避免限制时Amazon CloudFormation当大量节点加入集群时。

  • Elastic Fabric Adapter安装程序已更新到 1.9.5:

    • EFA 配置:efa-config-1.4来自来自的efa-config-1.3)

    • E要求:efa-profile-1.0.0(新

    • 内核模块:efa-1.6.0(无更改)

    • RDMA 核心:rdma-core-28.amzn0(无更改)

    • Libfabric:libfabric-1.10.1amzn1.1(无更改)

    • Open MPIopenmpi40-aws-4.0.3(没有变化)

  • 升级Slurm到版本20.02.4来自来自的19.05.5)。

  • NICE DCV已更新至 NICE DCV 2020.1-9012。有关更多信息,请参阅DCV 2020.1-9012— 2020 年 8 月 24 日发行说明在里面NICE DCV 管理员指南.

  • 装载共享 NFS 驱动器时,使用头节点私有 IP 地址而不是主机名。

  • 向中添加了新的日志流 CloudWatch 日志:chef-client,clustermgtd,computemgtd,slurm_resume,以及slurm_suspend.

  • 在预安装和安装后脚本中添加了对队列名称的支持。

  • 在里面Amazon GovCloud (US)区域,使用Amazon DynamoDB 按需计费选项。有关更多信息,请参阅按需模式在里面Amazon DynamoDB开发人员.

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2020 年 9 月 11 日

Amazon ParallelCluster版本 2.8.1

Amazon ParallelCluster版本 2.8.1 已发布。

更改包括:

  • 禁用 NICE DCV 会话的屏幕锁定,以防止用户被锁定。

  • 修复pcluster configure当包括基于 Arm 的设备时Amazon基于引力的实例类型。

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2020 年 8 月 4 日

Amazon ParallelCluster版本 2.8.0

Amazon ParallelCluster版本 2.8.0 已发布。

更改包括:

  • 增加了对基于 Arm 的支持Amazon基于 Gravity 的实例(比如A1C6g)。

  • 增加了对Amazon FSx for Lustre 的每日自动备份功能的支持。有关更多信息,请参阅 automatic_backup_retention_dayscopy_tags_to_backupsdaily_automatic_backup_start_timefsx_backup_id

  • 删除了 Berkshelf 的依赖项pcluster createami.

  • 提高了的稳定性和用户体验pcluster update. 有关更多信息,请参阅 使用 pcluster update

  • Elastic Fabric Adapter安装程序已更新到 1.9.4:

    • 内核模块:efa-1.6.0(更新自efa-1.5.1)

    • RDMA 内核:rdma-core-28.amzn0(更新自rdma-core-25.0)

    • Libfabriclibfabric-1.10.1amzn1.1(更新自libfabric-aws-1.9.0amzn1.1)

    • Open MPIopenmpi40-aws-4.0.3(没有变化)

  • 将 NVIDIA 驱动程序升级到 Tesla 版本 440.95.01CentOS6 和所有其他发行版的 450.51.05 版。

  • 在所有发行版上将 CUDA 库升级到 11.0 版CentOS6.

有关更改的更多详细信息,请参阅 CHANGELOG 文件aws-parallelcl,aws-parallelcluster-cookbook,以及aws-parallelcluster-node软件包 GitHub.

2020 年 7 月 23 日

Amazon ParallelCluster版本 2.7.0

Amazon ParallelCluster版本 2.7.0 已发布。

更改包括:

2020 年 5 月 19 日

Amazon ParallelCluster版本 2.6.1

Amazon ParallelCluster版本 2.6.1 已发布。

更改包括:

2020 年 4 月 17 日

Amazon ParallelCluster版本 2.6.0

Amazon ParallelCluster版本 2.6.0 已发布。

更改包括:

  • 添加了对 Amazon Linux 2 的支持

  • 现在是亚马逊 CloudWatch 日志用于收集集群和调度器日志。有关更多信息,请参阅 与 Amazon 集成 CloudWatch 日志

  • 增加了对适用于 Lustre 部署类型的新 Amazon FSx 的支持SCRATCH_2PERSISTENT_1. Support FSx for Lustre 开启Ubuntu18.04 和Ubuntu 16.04. 有关更多信息,请参阅 fsx

  • 添加了对NICE DCV 的支持Ubuntu 18.04. 有关更多信息,请参阅 通过 NICE DCV Connect 头节点

2020 年 2 月 27 日

Amazon ParallelCluster版本 2.5.1

Amazon ParallelCluster版本 2.5.1 已发布。

2019 年 12 月 13 日

Amazon ParallelCluster版本 2.5.0

Amazon ParallelCluster版本 2.5.0 已发布。

2019 年 11 月 18 日

Amazon ParallelCluster引入了对英特尔 MPI 的支持

Amazon ParallelCluster版本 2.4.1 引入了对英特尔 MPI 的支持。

2019 年 7 月 29 日

Amazon ParallelCluster引入了对 EFA 的支持

Amazon ParallelCluster版本 2.4.0 引入了对Elastic Fabric Adapter (EFA) 的支持。

2019 年 6 月 11 日

Amazon ParallelCluster文档发布于Amazon文档站点

Amazon ParallelCluster 文档现提供 10 种语言版本,并提供 HTML 和 PDF 两种格式。

2018 年 5 月 24 日