文档历史记录 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文档历史记录

下表描述了 Amazon ParallelCluster 用户指南 的主要更新和新功能。我们还经常更新文档来处理您发送给我们的反馈意见。

变更说明日期

Amazon ParallelCluster版本 3.5.0 已发布

Amazon ParallelCluster版本 3.5.0 已发布。

增强功能

  • 使用 Amazon ParallelClusterUI 访问和管理集群。

  • 在 CloudFormation 模板中添加版本化Amazon ParallelCluster策略,供您在工作负载中引用。

  • 添加一个可以与自己的代码一起使用的Amazon ParallelCluster Python 库。

  • 在计算节点引导失败时向 Amaz CloudWatch on 添加计算节点控制台输出的日志记录。

  • 在集群创建失败时将包含失败代码和原因的失败字段添加到describe-cluster输出中。

  • 添加验证器以防止在调用子流程模块时进行恶意字符串注入。

  • 如果在配置静态节点时集群状态更改为,PROTECTED则集群创建失败。

帐发生更改

  • 升级到Slurm版本22.05.8(从版本22.05.7

  • 将 EFA 安装程序升级到1.21.0

    • EFA 驱动程序:efa-2.1.1-1(来自efa-2.1

    • EFA-Config:efa-config-1.12-1(来自 efa-config-1.11-1)

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.1amzn3.0-1(来自libfabric-aws-1.16.1

    • rdma core:rdma-core-43.0-1(来自rdma-core-43.0-2

    • 打开 MPI:openmpi40-aws-4.1.4-3(无变化)

  • 使Slurm控制器日志更详细,并为省Slurm电插件启用其他日志记录。

错误修复:

  • 启用Slurm记账功能时,通过验证集群名称不超过 40 个字符来修复集群数据库的创建问题。

  • 修复在clustermgtd EC2 实例状态检查失败时导致重新启动的计算节点被替换的问题。Slurm

  • 修复了由于头节点上的 IAM 策略不正确而导致其他账户共享容量预留的计算节点无法启动的问题。

有关更改的详细信息,请参阅上的 aws-parallelcluster aws-parallelcluster-cookbookaws-parallelcluster-node、和aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 20 日 20 日 20 日

Amazon ParallelCluster版本 3.4.1 已发布

Amazon ParallelCluster版本 3.4.1 已发布。

错误修复:

  • 修复Slurm调度程序问题,该问题可能导致错误地应用对其内部计算节点注册表的更新。因此,如果出现此问题,EC2 实例可能会变得不可用或可能由错误的实例类型提供支持。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2023 年 1 月 13 日

Amazon ParallelCluster版本 3.4.0 已发布

Amazon ParallelCluster版本 3.4.0 已发布。

增强功能

  • 增加对跨多个可用区启动节点的支持,以提高容量可用性。

  • 添加对为每个队列指定多个子网的支持,以提高容量可用性。

  • Iam/中添加新的配置参数 ResourcePrefix,为创建的 IAM 资源的路径和名称指定前缀Amazon ParallelCluster。

  • 添加新的配置部分 DeploymentSettings/,LambdaFunctionsVpcConfig用于指定Amazon ParallelCluster Lambda 函数使用的 VPC 配置。

  • 添加在集群更新期间指定要在头节点中运行的自定义脚本的功能。用Slurm作调度器OnNodeUpdated时,可以使用 HeadNodeCustomActions//指定脚本。

帐发生更改

  • 取消为现有文件系统创建 Amazon EFS 装载目标。

  • 使用挂载 EFS 文件系统amazon-efs-utils。可以使用传输中加密和 IAM 授权用户装载 EFS 文件系统。

  • 在 CentOS7 和 Ubuntu 上安装 stunnel 5.67 以支持 EFS 传输中加密。

  • 将 EFA 安装程序升级到1.20.0(从1.18.0)。

    • EFA 驱动程序:efa-2.1(来自efa-1.16.0-1

    • EFA-config:efa-config-1.11-1(没有变化)

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.1(来自libfabric-aws-1.16.0~amzn4.0-1

    • rdma 核心:rdma-core-43.0-2来自 (rdma-core-41.0-2)

    • 打开 MPI:openmpi40-aws-4.1.4-3从 (openmpi40-aws-4.1.4-2)

  • 升级Slurm到版本22.05.7(从22.05.5)。

  • 将 Python 升级到3.9.163.7.16。 (来自3.9.153.7.13)。

  • 使用时Slurm22.05.7,处于IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING状态的动态节点不被视为运行状况不佳。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2022 年 12 月 22 日

Amazon ParallelCluster版本 3.1 已发布

Amazon ParallelCluster版本 3.3.3.3.3.1 已发布。

帐发生更改

  • 在 Amazon EC2 停用两年后,官方Amazon ParallelCluster产品 AMI 现已上市。

  • 将Amazon ParallelCluster API Lambda 的内存大小增加到 2048,以减少冷启动损失并避免超时。

错误修复:

  • 防止替换 Lustre 文件系统的托管 FSx 以及包括计算队列子网 ID 更改在内的集群更新数据丢失。

  • SharedStorageDeletionPolicy适用于集群更新操作。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件 GitHub。

2022 年 12 月 2 日

Amazon ParallelCluster版本 2.11.9 发布

Amazon ParallelCluster版本 2.11.9 已发布。

错误修复:

  • 防止替换 Lustre 文件系统的托管 FSx,防止丢失集群更新(包括对的更改)的数据vpc_security_group_id

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件 GitHub。

2022 年 12 月 2 日

Amazon ParallelCluster仅限文档 hpc6id 注意

Amazon ParallelCluster仅限文档的更新

2022 年 12 月 2 日

Amazon ParallelCluster版本 3.1.5 已发布

Amazon ParallelCluster版本 3.1.5 已发布。

增强功能

  • 修复阻止空闲节点终止的 Slurm 问题。

  • 将 EFA 安装程序更新为1.18.0

    • EFA 驱动程序:efa-1.16.0-1

    • EFA-config:efa-config-1.11-1(来自efa-config-1.9-1

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.0~amzn4.0-1(来自libfabric-1.13.2)。

    • rdma core:rdma-core-41.0-2(来自rdma-core-37.0

    • 打开 MPI:openmpi40-aws-4.1.4-2(从openmpi40-aws-4.1.1-2

帐发生更改

  • 在 API 堆栈ParallelClusterUserRole用于集群更新的Amazon ParallelCluster API 堆栈中添加lambda:ListTagslambda:UntagResource

  • 将英特尔 MPI 库升级到 2021 版更新 6(从 2021 版更新 4 开始)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 6

  • 将 NVIDIA 驱动程序升级到 470.141.03 版本(从 470.103.01 开始)。

  • 将 NVIDIA Fabric Manager 升级到 470.141.03 版本(从 470.103.01 开始)。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2022 年 11 月 16 日

Amazon ParallelCluster版本 2.11.8 发布

Amazon ParallelCluster版本 2.11.8 已发布。

帐发生更改

  • 将英特尔 MPI 库升级到 2021 版更新 6(从 2021 版更新 4 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 6

  • 将 EFA 安装程序更新为1.19.0

    • EFA 驱动程序:efa-1.16.0-1

    • EFA-config:efa-config-1.11-1(来自efa-config-1.9-1

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.0-1(来自libfabric-1.13.2

    • rdma core:rdma-core-41.0-2(来自rdma-core-37.0

    • 打开 MPI:openmpi40-aws-4.1.4-3(从openmpi40-aws-4.1.1-2

  • 将 Lambda 函数在Amazon Batch集成中使用的 Python 运行时升级到 python3.9。

错误修复:

  • 防止在更新期间更改集群标签,因为它不受支持。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件 GitHub。

2022 年 11 月 14 日

Amazon ParallelCluster版本 3.0 已发布

Amazon ParallelCluster版本 3.3.3.3.0 已发布。

增强功能

  • 在用作调度器时,添加对计算资源的多实例分配配置的支持。Slurm有关更多信息,请参阅使用 Slurm 分配多实例类型

  • 使用更新的配置,SharedStorage通过集群更新添加和删除功能。有关更多信息,请参阅共享存储空间

  • DeletionPolicyEfsFsxLustre共享存储设置添加新的配置参数以支持存储保留。

  • 使用新的配置参数 Scheduling/SlurmSettings/添加对Slurm会计的支持Database。有关更多信息,请参阅Slurm会计Amazon ParallelCluster

  • 添加对按需容量预留和容量预留资源组的支持。有关更多信息,请参阅使用 ODCR(按需容量预留)启动实例

  • 添加新的配置参数以指定集群中要支持的 IMDS 版本或在集群中构建映像基础架构ImdsSupportImds/和 build、Imds/ImdsSupport、配置。

  • PlacementGroupNetworking/ComputeResources部分添加对 SlurmQueues/的支持。

  • 添加对具有多个网络接口的实例的支持,这些接口仅限于每台设备一个 ENI。

  • 通过检查附加安全组中的 CIDR 块,改善外部 Amazon EFS 文件系统的网络验证。

  • 添加验证器以检查配置的实例类型是否支持置放组。

  • 将 NFS 线程配置为最小值(256,最大值(8,num_cores * 4)),以确保更好的稳定性和性能。

  • 在编译时移动 NFS 安装以缩短配置时间。

  • 为部署Amazon ParallelCluster API 时创建的 EcrImageBuilder SNS 主题启用服务器端加密,该主题用于通知 docker 镜像构建事件。

帐发生更改

  • 更改 SlurmQueues//NetworkingPlacementGroup/的行为Enabled。现在,它为每个计算资源创建一个唯一的托管置放群组,而不是为所有计算资源创建一个单一的托管置放群组。

  • 添加对 SlurmQueues//NetworkingPlacementGroup/Name作为首选命名方法的支持。

  • 将头节点标签从 Launch Template 移至实例定义,以避免在标签更新时替换头节点。

  • 通过由启动模板中的设置执行的脚本禁用多线程cloud-init,而不是通过CpuOptions设置来禁用多线程。

  • 在 API 基础架构、API Docker 容器和集群 Lambda 资源中,将 Python 升级到版本 3.9,将 NodeJS 升级到版本 16。

  • 中删除对 Python 3.6 的支持aws-parallelcluster-batch-cli

  • 升级Slurm到版本22.05.5(从21.08.8-2)。

  • 将 NVIDIA 驱动程序升级到版本470.141.03(从470.129.06)。

  • 将 NVIDIA 架构管理器升级到版本470.141.03(从470.129.06)。

  • 将 NVIDIA CUDA 工具包升级到版本 11.7.1 (from 11.4.4)。

  • 将Amazon ParallelCluster虚拟环境中使用的 Python 从升级3.7.133.9.15

  • 将 EFA 安装程序升级到版本 1.18.0。

    • EFA 驱动程序:efa-1.16.0-1(没变)

    • EFA 配置:efa-config-1.11-1(from efa-config-1.10-1)

    • EFA 个人资料:efa-profile-1.5-1(没有变化)

    • libfabric-AWS:libfabric-aws-1.16.0~amzn4.0-1(来自libfabric-aws-1.16.0~amzn2.0-1)。

    • rdma core:rdma-core-41.0-2(来自rdma-core-37.0

    • 打开 MPI:openmpi40-aws-4.1.4-2(从openmpi40-aws-4.1.1-2

  • 将 NICE DCV 升级到版本2022.1-13300(从2022.0-12760)。

  • 启用对 forSingleSubnetValidator 的抑制Queues

  • 请勿在DRAIN节点处于COMPLETING状态时替换节点,因为 Epilog 可能仍在运行。

错误修复:

  • 修复了在传递不正确的过滤器时Amazon ParallelClusterListClusterLogStreams命令中过滤器参数的验证失败的问题。

  • 修复了将参数 SharedStorage/与EfsSettings其他 SharedStorage/EfsSettings参数一起指定时FileSystemId验证失败的问题。以前,FileSystemId不包括在内。

  • 修复在更改顺序以及SharedStorage配置中其他更改时出现的集群更新。

  • 修复UpdateParallelClusterLambdaRole了Amazon ParallelCluster用于将日志上传到的 API CloudWatch。

  • 修复 Cinc 在执行任何食谱之前安装软件包时不使用本地 CA 证书包的问题。

  • 修复了在设置时升级 ubuntupcluster build-imageBuild:UpdateOsPackages:Enabled:true 时出现的问题。

  • 通过重复密钥失败来修复 YAML 集群配置的解析。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2022 年 11 月 2 日

Amazon ParallelCluster仅添加了文档 API 参考。

Amazon ParallelCluster仅限文档的更新

2022 年 10 月 27 日

Amazon ParallelCluster版本 3.2.1 已发布

Amazon ParallelCluster版本 3.2.1 已发布。

增强功能

  • 改进逻辑,将主机路由表关联到不同的网卡,以更好地支持具有多个 NIC 的 EC2 实例。

帐发生更改

  • 将 NVIDIA 驱动程序升级到 470.141.03 版本。

  • 将 NVIDIA Fabric Manager 升级到 470.141.03 版本。

  • 禁用cron作业任务man-dbmlocate,这可能会对节点性能产生负面影响。

  • 将英特尔 MPI 库升级到 2021.6.0.602。

  • 将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。

错误修复:

  • 避免在群集配置不可用DescribeCluster时失败。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2022 年 10 月 3 日

Amazon ParallelCluster版本 3.2.0 已发布

Amazon ParallelCluster版本 3.2.0 已发布。

增强功能

帐发生更改

  • 将 EFA 安装程序升级到版本 1.17.2。

    • EFA 驱动程序:efa-1.16.0-1

    • EFA 配置:efa-config-1.10-1

    • EFA 简介:efa-profile-1.5-1

    • libfabric:libfabric-aws-1.16.0~amzn2.0-1

    • RDMA 内核:rdma-core-41.0-2

    • Open i I I I Iopenmpi40-aws-4.1.4-2

  • 将 NICE DCV 升级到 2022.0-12760 版本。

  • 将 NVIDIA 驱动程序升级到 470.129.06 版本。

  • 将 NVIDIA Fabric Manager 升级到 470.129.06 版本。

  • 将根卷和其他卷中的默认 EBS 卷类型从 gp2 更改为 gp3。

  • 对适用于 Lustre 文件系统的 FSx 的更改是由Amazon ParallelCluster以下人员创建的:

    • 将默认部署类型更改为Scratch_2

    • 将 Lustre 服务器版本更改为2.12

  • 传递现有EnabledPlacementGroup/true时不需要将PlacementGroup /设置为Id

  • PlacementGroup /明确设置为IdEnabled,不允许设置PlacementGroup/false

  • 向创建的所有资源添加parallelcluster:cluster-name标签Amazon ParallelCluster。

  • lambda:ListTags和添加lambda:UntagResource到Amazon ParallelCluster API 堆栈ParallelClusterUserRole用于集群更新。

  • 启用配置参数HeadNode/Imds/时IMDS,将 IPv6 访问权限限制Secured为 root 和集群管理员用户。

  • 对于自定义 AMI,使用 AMI 根卷大小,而不是 ParallelCluster 默认的 35 GiB。可以在集群配置文件中更改该值。

  • 当配置参数Scheduling/SlurmQueuesComputeResources/低于要求的最低竞价请求履行价格SpotPrice时,自动禁用计算队列。

  • 在更新期间添加或删除分区时显示更改集中的requested_valuecurrent_value值。

  • 禁用深度学习 AMI 中提供的aws-ubuntu-eni-helper服务,以避免在配置具有多个网卡的实例configure_nw_interface.sh时发生冲突。

  • 移除对 Python 3.6 的支持。

  • 使用多个网卡配置实例时,将所有网络接口的 MTU 设置为 9001。

  • 配置计算节点 FQDN 时删除尾随点。

  • 管理中的静态节点POWERING_DOWN

  • 不会替换中的动态节点POWER_DOWN,因为作业可能仍在运行。

  • 只有在群集配置中更新Scheduling参数时,才在群集更新时重新启动clustermgtdslurmctld守护程序。

  • 更新slurmctldslurmdsystemd服务文件。

  • 启用配置参数HeadNode/Imds/时,仅允许根用户和集群管理员用户访问 IMDSSecured 的 IPv6。

  • 设置 Slurm 配置AuthInfo=cred_expire=70以减少节点不可用时重新启动的任务必须等待的时间。

  • 升级第三方食谱依赖关系:

    • apt-7.4.2(来自 apt-7.4.0)

    • 线路 4.5.2(来自第 4.0.1 行)

    • openssh-2.10.3(来自 openssh-2.9.1)

    • pyenv-3.5.1(来自 pyenv-3.4.2)

    • selinux-6.0.4(来自 selinux-3.1.1)

    • yum-7.4.0(来自 yum-6.1.1)

    • yum-epel-4.5.0(来自 yum-epel-4.1.2)

错误修复:

  • 修复了构建自定义 AMI 时跳过Amazon ParallelCluster验证和测试步骤的默认行为。

  • 修复文件句柄泄漏问题computemgtd

  • 修复偶尔会导致已启动的实例因在 EC2 DescribeInstances 响应中尚不可用而立即终止的争用情况。

  • 修复了 Arm 处理器对实例类型DisableSimultaneousMultithreading参数的支持。

  • 修复从先前版本升级时Amazon ParallelCluster的 API 堆栈更新失败。在中添加用于ListImagePipelineImages操作的资源模式EcrImageDeletionLambdaRole

  • 修复Amazon ParallelCluster API 在创建 FsX for Lustre 文件系统时添加了缺少从 Amazon S3 导入或导出所需的权限。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2022 年 7 月 27 日

Amazon ParallelCluster今年迄今为止仅限文档的更新

Amazon ParallelCluster仅限文档的更新。

2022 年 7 月 6 日

Amazon ParallelCluster版本 3.1.4 已发布

Amazon ParallelCluster版本 3.1.4 已发布。

增强功能

帐发生更改

  • 将 Slurm 升级到 21.08.8-2 版本。

  • 在 JWT 支持下构建 Slurm。

  • 传递现有EnabledPlacementGroup/true时不需要将PlacementGroup /设置为Id

  • 添加lambda:TagResource到 ParallelCluster API 堆栈ParallelClusterUserRole用于创建集群和创建映像。

错误修复:

  • 修复了使用带--filters选项的export-cluster-logs命令时导出集群日志的功能。

  • 修复Amazon Batch Docker 入口点以使用/home共享目录来协调多节点并行作业的执行。

  • 将 slurm 不健康的静态节点设置为关闭时重置节点地址,以避免将容量不足而出现故障的静态节点视为引导失败节点。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2022 年 5 月 16 日

Amazon ParallelCluster版本 2.11.7 发布

Amazon ParallelCluster版本 2.11.7 已发布。

帐发生更改

  • 将 Slurm 升级到 20.11.9 版本。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件 GitHub。

2022 年 5 月 13 日

Amazon ParallelCluster版本 3.1.3 已发布

Amazon ParallelCluster版本 3.1.3 已发布。

增强功能

  • 在创建 HOME 目录的同时执行 SSH 密钥创建,例如,在 SSH 登录期间、切换到其他用户时以及以其他用户身份执行命令时。

  • 在配置参数 DirectoryService/中添加对 FQDN 和 LDAP 可分辨名称的支持DomainName。新的验证器现在会检查这两种语法。

  • 在头节点上部署的新update_directory_service_password.sh脚本支持手动更新 SSSD 配置中的 Active Directory 密码。密码由 aAmazon Secrets Manager s 从集群配置中检索。

  • 添加在没有默认 VPC 的环境中部署 API 基础设施的支持。

帐发生更改

  • 在 x86_64 官方 AMI 和通过build-image命令创建的 AMI 中禁用更深层次的 C 状态,以保证高性能和低延迟。

  • 操作系统包更新和安全补丁。

  • 将亚马逊 Linux 2 基础映像更改为使用带有内核 5.10 的 AMI。

错误修复:

  • 由于新的 EC2 Image Builder 政策,成功构建映像DELETE_FAILED后修复构建映像堆栈。

  • 修复配置参数 DirectoryService/DomainAddr转换为 ldap_uri SSSD 属性时该属性包含多个域地址的问题。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件以及上的aws-parallelcluster-cookbook软件包 GitHub。

2022 年 4 月 20 日

Amazon ParallelCluster版本 2.11.6 发布

Amazon ParallelCluster版本 2.11.6 已发布。

增强功能

  • 改善网络缺失时的异常管理。

帐发生更改

  • 操作系统包更新和安全补丁。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件 GitHub。

2022 年 4 月 19 日

Amazon ParallelCluster版本 3.1.2 已发布

Amazon ParallelCluster版本 3.1.2 已发布。

帐发生更改

  • 将 Slurm 升级到版本21.08.6(从21.08.5)。

错误修复:

  • 修复在无法访问互联网的子网中部署集群时计算节点上/etc/hosts文件的更新。

  • 修复计算节点引导问题,使其在加入集群之前等待临时驱动器初始化。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件 GitHub。

2022 年 3 月 2 日

Amazon ParallelCluster版本 2.11.5 发布

Amazon ParallelCluster版本 2.11.5 已发布。

增强功能

  • 添加对 aNEW_CHANGED_DELETED s value for LustreAutoImportPolicy 选项的支持。

  • 取消对 SGE 和 Torque 调度程序的支持。

  • 在 Amazon Linux 上禁用log4j-cve-2021-44228-hotpatch服务以避免导致潜在的性能下降。

帐发生更改

  • 将 NVIDIA 驱动程序升级到版本470.103.01(从470.82.01)。

  • 将 NVIDIA 架构管理器升级到版本470.103.01(从470.82.01)。

  • 将 CUDA 库升级到版本11.4.4(从11.4.3)。

  • 英特尔 MPI 已更新至 2021 年更新 4(从 2019 版更新 8 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 4

  • 将头节点创建超时时间延长至一小时。

错误修复:

  • 通过浏览器修复 DCV 连接。

  • 修复 YAML 引用以防止自定义标签被解析为数字。

有关更改的详细信息,请参阅上的 aws-parallelcluster 软件包CHANGELOG文件 GitHub。

2022 年 3 月 1 日

Amazon ParallelCluster版本 3.1.1 发布

Amazon ParallelCluster版本 3.1.1 已发布。

  • 通过与通过管理的 Active Directory (AD) 域集成,增加对多用户群集环境的支持Amazon Directory Service。

  • 在集群配置文件UseEc2Hostnames中添加对的支持。设置为 true 时,对计算节点使用 EC2 默认主机名(例如 ip-1-2-3-4)。

  • 添加对在无法访问互联网的子网中创建集群的支持。

  • 添加对每个队列的多个计算实例类型的支持。

  • 在装有 NVIDIA 显卡的 ARM 实例上添加对使用 Slurm 进行的 GPU 调度的支持。

  • 在Amazon ParallelCluster CLI 中添加cluster-name (-n)、region (-r)、image-id (-i) 和cluster-configuration/image-configuration(-c) 的缩写标志。

  • 添加对 Lustre AutoImportPolicy参数的 FsXNEW_CHANGED_DELETED 选项的支持。

  • 为计算节点使用的 EC2LaunchTemplates 资源添加parallelcluster:compute-resource-name标签。

  • 改进在集群内创建的安全组,以便在为某些头节点和/或队列指定SecurityGroups参数时允许来自自定义安全组的入站连接。

  • 安装适用于 ARM 的 NVIDIA 驱动程序和 CUDA 库。

帐发生更改

  • 将 Slurm 升级到版本21.08.5(从20.11.8)。

  • 将 Slurm 插件升级到版本21.08(从20.11)。

  • 将 NICE DCV 升级到版本2021.3-11591(从2021.1-10851)。

  • 将 NVIDIA 驱动程序升级到版本470.103.01(从470.57.02)。

  • 将 NVIDIA 架构管理器升级到版本470.103.01(从470.57.02)。

  • 将 CUDA 升级到版本11.4.4(从11.4.0)。

  • 英特尔 MPI 已更新至 2021 年更新 4(从 2019 版更新 8 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 4

  • 将 pMix 升级到版本3.2.3(从3.1.5)。

  • 删除将故障计算节点转储到/home/logs/compute。计算节点日志文件可在 EC2 控制台日志中 CloudWatch 和日志中找到。

  • 激发抑制SlurmQueuesComputeResources长度验证器的潜力。

  • 在 Amazon Linux 2 上在实例启动时禁用软件包更新。

  • 构建Amazon ParallelCluster自定义镜像时禁用 EC2 ImageBuilder 增强型图像元数据。

  • 明确将cloud-init数据源设置为 EC2。这样可以节省 Ubuntu 和 CentOS 平台的启动时间。

  • 在计算队列启动模板名称中使用计算资源名称而不是实例类型。

  • 将 stderr 和 stdout 重定向到 CLI 日志文件,以防止 pcluster CLI 输出中出现不需要的文本。

  • 将配置/安装配方移至与主食谱分开调用的食谱中。现有入口点保持不变,向后兼容。

  • 在 AMI 构建期间下载英特尔 HPC 平台的依赖关系,以避免在集群创建期间联系互联网。

  • 配置 Slurm 节点时,请勿-从计算资源名称中删除。

  • 未安装 NVIDIA 驱动程序时,请勿在 Slurm 中配置 GPU。

  • 修复中的ecs:ListContainerInstances权限BatchUserRole

  • 修复了在未指定前缀(之前导出到前缀时导出到前缀)时导出集群日志的问题。None

  • 修复集群更新失败时无法执行回滚的问题。

  • 修复中的ecs:ListContainerInstances权限BatchUserRole

  • 如果指定了不支持HeadNodeRootVolume架构,KmsKeyId则会引发错误,从而修复架构。

  • 修复 Amazon FSx 缺少显示在 CloudWatch 控制面板中的指标。

  • 修复EfaSecurityGroupValidator。以前,在提供自定义安全组并启用 EFA 时,它有可能产生错误故障。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2022 年 2 月 10 日

Amazon ParallelCluster版本 3.3 发布

Amazon ParallelCluster版本 3.0.3 已发布。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件和上的aws-parallelcluster-cookbook软件包 GitHub。

2022 年 17 日 17 日 17 日

Amazon ParallelCluster版本 2.11.4 发布

Amazon ParallelCluster版本 2.11.4 已发布。

更改包括:

  • CentOS移除了 8 个支持。 CentOS8 于 2021 年 12 月 31 日达到生命周期终结 (EOL)。

  • 升级Slurm Workload Manager到 20.11.8 版。

  • 将 Cinc 客户端升级到17.2.29

  • NICE DCV 更新为 NICE DCV 2021.2-11190。欲了解更多信息,请参阅《NICE DCV 管理员指南》中的 DCV 2021.2-11190 — 2021 年 10 月 11 日

  • 将 NVIDIA 驱动程序升级到版本470.82.01(从460.73.01)。

  • 将 CUDA 库升级到版本11.4.3(从11.3.0)。

  • 将 NVIDIA 架构管理器升级到470.82.01

  • 在 Amazon Linux 2 上在实例启动时禁用软件包更新。

  • 在 Amazon Linux 上Ubuntu禁用无人值守的软件包更新 2.

  • 在CentOS 7 和Ubuntu 18.04 上安装 Python 3 版本的Amazon CloudFormation帮助脚本。(它们已经在亚马逊 Linux 2 和Ubuntu 20.04 上使用过。)

修复包括:

  • 禁用ec2_iam_role参数更新。

  • 修复T2实例启动模板中的CpuOptions配置。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包 GitHub。

2021 年 12 月 20 日

Amazon ParallelCluster版本 3.2 发布

Amazon ParallelCluster版本 3.0.2 已发布。

Elastic Fabric Adapter安装程序升级到 1.14.1

  • EFA 配置:efa-config-1.9-1(来自efa-config-1.9

  • EFA 简介:efa-profile-1.5-1(来自efa-profile-1.5

  • EFA 内核模块:efa-1.14.2(来自efa-1.13.0

  • RDMA 内核:rdma-core-37.0(来自rdma-core-35

  • Libfabric:libfabric-1.13.2(来自libfabric-1.13.0

  • 打开 MPI:openmpi40-aws-4.1.1-2(无变化)

如果实例类型支持 GpuDirect RDMA,则始终处于启用状态。GdrSupport配置选项无效。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包 GitHub。

2021 年 11 月 5 日

Amazon ParallelCluster版本 2.11.3 发布

Amazon ParallelCluster版本 2.11.3 已发布。

  • 修复由于Son of Grid Engine源代码不可用而导致的pcluster createami故障arc.liv.ac.uk

Elastic Fabric Adapter安装程序升级到 1.14.1(从 1.13.0)

  • EFA 配置:efa-config-1.9-1(来自efa-config-1.9

  • EFA 简介:efa-profile-1.5-1(无变化)

  • EFA 内核模块:efa-1.14.2(来自efa-1.13.0

  • RDMA 内核:rdma-core-37.0(来自rdma-core-35.0amzn

  • Libfabric:libfabric-1.13.2(来自libfabric-1.13.0amzn1.0

  • 打开 MPI:openmpi40-aws-4.1.1-2(无变化)

如果实例类型支持 GpuDirect RDMA,则始终处于启用状态。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包 GitHub。

2021 年 11 月 3 日

Amazon ParallelCluster版本 3.0.1 已发布

Amazon ParallelCluster版本 3.0.1 已发布。

集群配置迁移工具

  • 客户现在可以将其集群配置从Amazon ParallelCluster版本 2 格式迁移到基于 YAML 的Amazon ParallelCluster版本 3 格式。有关更多信息,请参阅pcluster3-config-converter

头节点可以停止

默认从~/.aws/config文件Amazon Web Services 区域读取

  • 对于该pcluster命令,如果未在配置文件、环境或命令行中指定,则使用~/.aws/config文件[default]部分region设置中Amazon Web Services 区域指定的默认值。Amazon Web Services 区域

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包 GitHub。

2021 年 10 月 27 日

Amazon ParallelCluster版本 3.0 发布

Amazon ParallelCluster版本 3.0.0 已发布。

Support 通过Amazon API Gateway 进行集群管理

  • 客户现在可以使用Amazon API Gateway 通过 HTTP 终端节点管理和部署集群。这为脚本化或事件驱动的工作流程开辟了新的可能性。

    Amazon ParallelCluster命令行界面 (CLI) 也经过重新设计以与此 API 兼容,并包括一个新的 JSON 输出选项。这项新功能使客户也可以使用 CLI 实现类似的构建块功能。

改进自定义 OpeAMI 自定义

  • 现在,客户可以访问更强大的流程,使用 EC2 Image Builder 创建和管理自定义 AMI。自定义 AMI 现在可以通过单独的Amazon ParallelCluster配置文件进行管理,并且可以使用pcluster build-image命令行界面中的Amazon ParallelCluster命令创建。

有关更改的详细信息,请参阅 aws-parallelclusterCHANGELOG 的文件aws-parallelcluster-cookbook以及上的aws-parallelcluster-node软件包 GitHub。

2021 年 9 月 10 日

Amazon ParallelCluster版本 2.11.2 发布

Amazon ParallelCluster版本 2.11.2 已发布。

更改包括:

  • 如果 EFA 安装在基本 AMI 中,请勿在引导时安装启用 GPUDirect RDMA (GDR) 的 EFA。

  • 锁定nvidia-fabricmanager软件包的版本以保持与安装的 NVIDIA 驱动程序版本同步Amazon ParallelCluster。

  • Slurm:修复了节点启动时群集停止并重新启动时造成的问题。

  • Elastic Fabric Adapter安装程序更新到 1.13.0:

    • EFA 配置:efa-config-1.9(无更改)

    • EFA 简介:efa-profile-1.5-1(无变化)

    • EFA 内核模块:efa-1.13.0(无变化)

    • RDMA 内核:rdma-core-35.0amzn(来自rdma-core-32.1amzn

    • Libfabric:libfabric-1.13.0amzn1.0(来自libfabric-1.11.2amzn1.1

    • 打开 MPI:openmpi40-aws-4.1.1-2(无变化)

  • 使用带有预安装的 EFA 包的自定义 AMI 时,在节点引导时不会对 EFA 进行任何更改。原始 EFA 软件包部署将保留。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件和上的aws-parallelcluster-cookbook软件包 GitHub。

2021 年 8 月 27 日 27 日

Amazon ParallelCluster版本 2.11.1 发布

Amazon ParallelCluster版本 2.11.1 已发布。

更改包括:

  • 在读取文件时,使用noatime装载选项装载文件系统以停止记录上次访问时间。这提高了远程文件系统的性能。

  • Elastic Fabric Adapter安装程序更新至 1.12.3:

    • EFA 配置:efa-config-1.9(来自efa-config-1.8-1

    • EFA 简介:efa-profile-1.5-1(无变化)

    • EFA 内核模块:efa-1.13.0(来自efa-1.12.3

    • RDMA 核心:rdma-core-32.1amzn(无更改)

    • Libfabric:libfabric-1.11.2amzn1.1(无更改)

    • 打开 MPI:openmpi40-aws-4.1.1-2(无变化)

  • 用Amazon Batch作调度器时,重试在头节点上安装aws-parallelcluster软件包。

  • 在具有超过 31 个 vCPUs 的实例类型SGE上构建时避免失败。

  • 固定到亚马逊 CloudWatch 代理的 1.247347.6 版本以避免 1.247348.0 版本中出现的问题。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件和上的aws-parallelcluster-cookbook软件包 GitHub。

2021 年 7 月 23 日

Amazon ParallelCluster版本 2.11.0 已发布

Amazon ParallelCluster版本 2.11.0 已发布。

更改包括:

  • 增加了对Ubuntu 20.04 (ubuntu2004) 的支持,删除了对Ubuntu 16.04 (ubuntu1604) 和亚马逊 Linux (alinux) 的支持。亚马逊 Linux 2 (alinux2) 仍然得到完全支持。有关更多信息,请参阅base_os

  • 删除了对 3.6 以下 Python 版本的支持。

  • 默认根卷大小增加为35 Gibyte (Gibibyte)。有关更多信息,请参阅 compute_root_volume_sizemaster_root_volume_size

  • Elastic Fabric Adapter安装程序更新到 1.12.2:

    • EFA 配置:efa-config-1.8-1(来自efa-config-1.7

    • EFA 简介:efa-profile-1.5-1(来自efa-profile-1.4

    • EFA 内核模块:efa-1.12.3(来自efa-1.10.2

    • RDMA 内核:rdma-core-32.1amzn(来自rdma-core-31.2amzn

    • Libfabric:libfabric-1.11.2amzn1.1(来自libfabric-1.11.1amzn1.0

    • 打开 MPI:openmpi40-aws-4.1.1-2(从openmpi40-aws-4.1.0

  • 已升级Slurm到版本20.11.7(从20.02.7)。

  • centos7和上安装 SSM 代理centos8。(SSM 代理预安装在alinux2ubuntu1804、和中ubuntu2004。)

  • SGE: 请务必使用短名称作为主机名过滤器qstat

  • 使用实例元数据服务版本 2 (IMDSv2),而不是实例元数据服务版本 1。有关更多信息,请参阅适用于 Linux 的 Amazon EC2 用户指南 中的实例元数据和用户数据

  • 将 NVIDIA 驱动程序升级到版本460.73.01(从450.80.02)。

  • 将 CUDA 库升级到版本11.3.0(从11.0)。

  • 将 NVIDIA 架构管理器升级到nvidia-fabricmanager-460

  • 将Amazon ParallelCluster虚拟环境中使用的 Python 升级到3.7.10(从3.6.13)。

  • 将 Cinc 客户端升级到16.13.16

  • 升级以下第三方依赖项 aws-parallelcluster-cookbook

    • apt-7.4.0(来自apt-7.3.0)。

    • iptables-8.0.0(来自iptables-7.1.0)。

    • line-4.0.1(来自line-2.9.0)。

    • openssh-2.9.1(来自openssh-2.8.1)。

    • pyenv-3.4.2(来自pyenv-3.1.1)。

    • selinux-3.1.1(来自selinux-2.1.1)。

    • ulimit-1.1.1(来自ulimit-1.0.0)。

    • yum-6.1.1(来自yum-5.1.0)。

    • yum-epel-4.1.2(来自yum-epel-3.3.0)。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2021 年 7 月 1 日

Amazon ParallelCluster版本 2.10.4 已发布

Amazon ParallelCluster版本 2.10.4 已发布。

更改包括:

  • 已升级Slurm到版本20.02.7(从20.02.4)。

有关更改的更多详细信息,请参阅上的 aws-parallelcluster 软件包的 CHANGELO G 文件 GitHub。

2021 年 15 日 15 日 15 日

Amazon ParallelCluster版本 2.10.3 发布

Amazon ParallelCluster版本 2.10.3 已发布。

更改包括:

  • Amazon在中国和Amazon GovCloud (US)Amazon Web Services 区域. 在基于 ARM 的Amazon Graviton 实例上增加了对Ubuntu 18.04 和亚马逊 Linux 2 的支持

  • Elastic Fabric Adapter安装程序更新到 1.11.2:

    • EFA 配置:efa-config-1.7(无更改)

    • EFA 简介:efa-profile-1.4(来自efa-profile-1.3

    • EFA 内核模块:efa-1.10.2(无变化)

    • RDMA 核心:rdma-core-31.2amzn(无更改)

    • Libfabric:libfabric-1.11.1amzn1.0(无更改)

    • 打开 MPI:openmpi40-aws-4.1.0(无变化)

有关更改的更多详细信息,请参阅上的 aws-parallelcluster 软件包的 CHANGELO G 文件 GitHub。

2021 年 3 月 18 日

Amazon ParallelCluster版本 2.10.2 已发布

Amazon ParallelCluster版本 2.10.2 已发布。

更改包括:

  • 改进集群配置验证,以便在--dry-run模式下调用 Amazon EC2 RunInstancesAPI 操作时使用集群目标 AMI。

  • 将Amazon ParallelCluster虚拟环境中使用的 Python 版本更新到 3.6.13。

  • 修复sanity_check Arm 实例类型。

  • 修复了centos8与Slurm调度器或 Arm 实例类型一起使用enable_efa时的问题。

  • apt update在非交互模式下运行 (-y)。

  • 修复encrypted_ephemeral = 使用alinux2和时为真centos8

有关更改的更多详细信息,请参阅上的 aws-parallelcluster 软件包的 CHANGELO G 文件 GitHub。

2021 年 3 月 2 日

Amazon ParallelCluster版本 2.10.1 发布

Amazon ParallelCluster版本 2.10.1 已发布。

更改包括:

  • 增加了对非洲(开普敦)(af-south-1)、欧洲(米兰)(me-south-1)()和中东(巴林)(me-south-1)Amazon Web Services 区域。在发布为支持时,支持在以下方式中是有限的:

    • 其中任何一个实例都不支持适用于 Lustre 的 FsX 和基于 Arm 的 Graviton 实例Amazon Web Services 区域。

    • Amazon Batch非洲(开普敦)不支持。

    • 非洲(开普敦)io2和欧洲(米兰)和gp3卷类型不支持 Amazon EBS 和卷类型Amazon Web Services 区域。

  • 增加了对亚马逊 EBSio2gp3卷类型的支持。有关更多信息,请参阅[ebs]章节[raid]章节

  • 增加了对基Elastic Fabric Adapter于 ARM 的 Graviton2 实例上运行alinux2ubuntu1804、或的支持ubuntu2004。有关更多信息,请参阅Elastic Fabric Adapter

  • 在 Arm AMI 上安装 Arm 性能库 20.2.1(alinux2centos8、和ubuntu1804)。有关更多信息,请参阅AM 性能库

  • 英特尔 MPI 已更新至 2019 年更新 8(从 2019 版更新 7 更新)。有关更多信息,请参阅英特尔® MPI 库 2019 年更新 8

  • 从Amazon Batch Docker 入口点移除了Amazon CloudFormationDescribeStacks API 操作调用,以结束因限制而导致的任务失败Amazon CloudFormation。

  • 改进了验证集群配置时对 Amazon EC2DescribeInstanceTypes API 操作调用的调用。

  • Amazon Linux 2 Docker 镜像是在为awsbatch调度程序构建 Docker 镜像时从 Amazon ECR Public 提取的。

  • 的默认实例类型从硬编码的t2.micro实例类型更改为免费套餐实例类型Amazon Web Services 区域(t2.microt3.micro,视情况而定Amazon Web Services 区域)。 Amazon Web Services 区域没有免费套餐的t3.micro实例类型默认。

  • Elastic Fabric Adapter安装程序更新到 1.11.1:

    • EFA 配置:efa-config-1.7(来自efa-config-1.5

    • EFA 简介:efa-profile-1.3(来自efa-profile-1.1

    • EFA 内核模块:efa-1.10.2(无变化)

    • RDMA 内核:rdma-core-31.2amzn(来自rdma-core-31.amzn0

    • Libfabric:libfabric-1.11.1amzn1.0(来自libfabric-1.10.1amzn1.1

    • 打开 MPI:openmpi40-aws-4.1.0(从openmpi40-aws-4.0.5

  • vpc_settingsvpc_id、和master_subnet_id参数现在是必需的。

  • 头节点nfsd中的守护程序现在设置为使用至少 8 个线程。如果内核超过 8 个,它将使用与内核一样多的线程。使用ubuntu1604时,该设置仅在节点重新启动后才会更改。

  • NICE DCV 更新为 NICE DCV 2020.2-9662。欲了解更多信息,请参阅《NICE DCV 管理员指南》中的 DCV 2020.2-9662— 2020 年 12 月 4 日

  • 的英特尔 MPI 和 HPC 软件包Amazon ParallelCluster是从Amazon S3 中提取的。它们不再被从英特尔 yum 存储库中撤出。

  • 在创建官方Amazon ParallelCluster AMI 期间,将multi-user.target所有操作系统的默认systemd运行级别更改为。只有在启用 DCV 时,才在头节点graphical.target上将运行级别设置为。这会防止图形服务(例如x/gdm)在不需要时运行。

  • 启用了对头节点上p4d.24xlarge实例的支持。

  • 增加在 Amazon Route 53 中注册Slurm节点时的最大重试次数。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2020 年 12 月 22 日

Amazon ParallelCluster版本 2.10.0 发布

Amazon ParallelCluster版本 2.10.0 已发布。

更改包括:

  • 在所有Amazon Web Services 区域(Amazon中国和Amazon GovCloud (美国)地区以外)增加了对CentOS 8 的支持。删除了对CentOS 6 的支持。

  • 增加了对计算节点p4d.24xlarge实例的支持。

  • 使用新enable_efa_gdr设置在 EFA 上添加了对 NVIDIRIC GPUDIRECT RDMA 的支持。

  • 增加了为Amazon FSx for Lustre 功能的支持。

  • 添加了 Amazon CloudWatch 控制面板,包括头节点指标和对集群日志的轻松访问。有关更多信息,请参阅亚马逊 CloudWatch 控制面板

  • 使用cluster_resource_bucket设置添加了对使用现有 Amazon S3 存储桶存储集群配置信息的支持。

  • 增强了pcluster createami命令。

    • 添加了在构建 AMI 时使用安装后脚本的--post-install参数。

    • 添加了在使用其他版本创建的基本 AMI 时失败的验证步骤Amazon ParallelCluster。

    • 添加了在所选操作系统与基本 AMI 中的操作系统不同时失败的验证步骤。

    • 增加了对使用Amazon ParallelCluster基本 AMI 的支持。

  • 增强了pcluster update命令。

    • 现在可以在更新期间更改tags设置。

    • 现在可以在更新期间调整队列的大小,而无需停止计算队列

  • slurm_resume脚本添加了all_or_nothing_batch配置参数。当Trueslurm_resume只有当所有待处理任务所需的所有实例都可用时,才Slurm会成功。有关更多信息,请参阅上的Amazon ParallelCluster Wiki 中的all_or_nothing_batch发布简介 GitHub。

  • Elastic Fabric Adapter安装程序更新至 1.10.1:

    • EFA 配置:efa-config-1.5(来自efa-config-1.4

    • EFA 简介:efa-profile-1.1(来自efa-profile-1.0.0

    • EFA 内核模块:efa-1.10.2(来自efa-1.6.0

    • RDMA 内核:rdma-core-31.amzn0(来自rdma-core-28.amzn0

    • Libfabric:libfabric-1.11.1amzn1.0(来自libfabric-1.10.1amzn1.1

    • 打开 MPI:openmpi40-aws-4.0.5(从openmpi40-aws-4.0.3

  • 在Amazon GovCloud (US)区域中,启用对 NICE DCV 和的支持Amazon Batch。

  • Amazon在中国区域,启用对Amazon FSx for Lustre 的支持。

  • 将 NVIDIA 驱动程序升级到 450.80.02 版本(从 450.51.05 开始)。

  • 安装 NVIDIA Fabric Manager 以在支持的平台上启用 NVIDIA

  • 删除了默认值Amazon Web Services 区域us-east-1。默认使用此查询顺序。

    • Amazon Web Services 区域在-r--region参数中指定。

    • AWS_DEFAULT_REGION环境变量。

    • aws_region_nameAmazon ParallelCluster配置文件[aws]部分中的设置(默认为~/.parallelcluster/config)。

    • regionAmazon CLI配置文件[default]部分中的设置(默认为~/aws/config)。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2020 年 11 月 18 日

Amazon ParallelCluster版本 2.9.0 已发布

Amazon ParallelCluster版本 2.9.0 已发布。

更改包括:

  • 在与计算队列一起使用时,增加了对计算队列中的多个队列和多个实例类型的支持Slurm Workload Manager。使用队列时,不再使用 Auto Scaling 群组Slurm。Amazon Route 53 托管区域现已与集群一起创建,在使用Slurm调度程序时用于计算节点的 DNS 解析。有关更多信息,请参阅多队列模式

  • 在基于 Arm 的Amazon Graviton 实例上增加了对 NICE DCV 的支持。

  • 添加了对在启动模板中不支持 CPU 选项的实例类型(例如*.metal实例类型)上禁用超线程的支持。

  • 为从头节点共享的文件系统添加了对 NFS 4 的支持。

  • 删除了在引导计算节点时对 cfn-in it 的依赖,以避免Amazon CloudFormation在大量节点加入集群时受到限制。

  • Elastic Fabric Adapter安装程序更新至 1.9.5:

    • EFA 配置:efa-config-1.4(来自efa-config-1.3

    • EFA 简介:efa-profile-1.0.0(新)

    • 内核模块:efa-1.6.0(无更改)

    • RDMA 核心:rdma-core-28.amzn0(无更改)

    • Libfabric:libfabric-1.10.1amzn1.1(无更改)

    • 打开 MPI:openmpi40-aws-4.0.3(无变化)

  • 已升级Slurm到版本20.02.4(从19.05.5)。

  • NICE DCV 更新为 NICE DCV 2020.1-9012。有关更多信息,请参阅《N ICE DCV 管理员指南》中的 DCV 2020.1-9012 — 2020 年 8 月 24 日发行说明

  • 安装共享 NFS 驱动器时,使用头节点专用 IP 地址代替主机名。

  • 向日志添加了新的 CloudWatch 日志流:chef-clientclustermgtdcomputemgtdslurm_resume、和slurm_suspend

  • 在安装前和安装后脚本中添加了对队列名称的支持。

  • 在中Amazon GovCloud (US)Amazon Web Services 区域,使用Amazon DynamoDB 按需计费选项。有关更多信息,请参阅 Amazon DynamoDB 开发者指南中的按需模式

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2020 年 9 月 11 日

Amazon ParallelCluster版本 2.8.1 发布

Amazon ParallelCluster版本 2.8.1 已发布。

更改包括:

  • 禁用 NICE DCV 会话的屏幕锁定以防止用户被锁定。

  • 修复了包含基于 ARM 的基于Amazon Graviton 的实例类型pcluster configure时的问题。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2020 年 8 月 4 日

Amazon ParallelCluster版本 2.8.0 发布

Amazon ParallelCluster版本 2.8.0 已发布。

更改包括:

  • 添加了对基于 ARM 的基于Amazon Graviton 的实例(如A1C6g)的支持。

  • 添加了对亚马逊 FSx for Lustre 的每日自动备份功能的支持。有关更多信息,请参阅 automatic_backup_retention_dayscopy_tags_to_backupsdaily_automatic_backup_start_timefsx_backup_id

  • 从中删除了对 Berkshelf 的依赖关系pcluster createami

  • 提高了的稳定性和用户体验pcluster update。有关更多信息,请参阅使用 pcluster update

  • Elastic Fabric Adapter安装程序更新至 1.9.4:

    • 内核模块:efa-1.6.0(更新自efa-1.5.1

    • RDMA 内核:rdma-core-28.amzn0(更新自rdma-core-25.0

    • Libfabric:libfabric-1.10.1amzn1.1(更新自libfabric-aws-1.9.0amzn1.1

    • 打开 MPI:openmpi40-aws-4.0.3(无变化)

  • 在CentOS 6 上将 NVIDIA 驱动程序升级到特斯拉版本 440.95.01,在所有其他发行版上升级到 450.51.05 版。

  • 在除CentOS 6 之外的所有发行版上将 CUDA 库升级到 11.0 版。

有关更改的更多详细信息,请参阅 aws-parallelcluster 的 CHANGELO G 文件以及上的aws-parallelcluster-node软件包 GitHub。aws-parallelcluster-cookbook

2020 年 7 月 23 日

Amazon ParallelCluster版本 2.7.0 发布

Amazon ParallelCluster版本 2.7.0 已发布。

更改包括:

2020 年 5 月 19 日

Amazon ParallelCluster版本 2.6.1 发布

Amazon ParallelCluster版本 2.6.1 已发布。

更改包括:

2020 年 4 月 17 日

Amazon ParallelCluster版本 2.6.0 发布

Amazon ParallelCluster版本 2.6.0 已发布。

更改包括:

  • 添加了对 Amazon Linux 2 的支持

  • 现在 Amazon CloudWatch Logs 用于收集集群和调度程序日志。有关更多信息,请参阅与亚马逊 CloudWatch 日志集成

  • 增加了对适用于 Lustre 的新 Amazon FSx 部署类型的支持,以SCRATCH_2PERSISTENT_1. 在Ubuntu 18.04 和Ubuntu 16.04 上Support FsX for Lustre。有关更多信息,请参阅 fsx

  • 在Ubuntu 18.04 上添加了对 NICE DCV 的支持。有关更多信息,请参阅通过 NICE DCV Connect 头节点

2020 年 2 月 27 日

Amazon ParallelCluster版本 2.5.1 发布

Amazon ParallelCluster版本 2.5.1 已发布。

2019 年 12 月 13 日

Amazon ParallelCluster版本 2.5.0 已发布

Amazon ParallelCluster版本 2.5.0 已发布。

2019 年 11 月 18 日

Amazon ParallelCluster引入了对英特尔 MPI 的支持

Amazon ParallelCluster版本 2.4.1 引入了对英特尔 MPI 的支持。

2019 年 7 月 29 日

Amazon ParallelCluster引入了对 EFA 的支持

Amazon ParallelCluster版本 2.4.0 引入了对Elastic Fabric Adapter (EFA) 的支持。

2019 年 6 月 11 日

Amazon ParallelCluster文档网站上发布的Amazon文档

Amazon ParallelCluster 文档现提供 10 种语言版本,并提供 HTML 和 PDF 两种格式。

2018 年 5 月 24 日