发布说明和文档历史记录

下表描述了《Amazon ParallelCluster 用户指南》的主要更新和新功能。我们还经常更新文档来处理发送给我们的反馈意见。

Amazon ParallelCluster
更改	描述	日期
Amazon ParallelCluster 3.15.1 版本已发布	要升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster`。更改：修补官方 Amazon ParallelCluster AMI 以解决问题 CVE-2026-31431。禁用 Ubuntu 上的`algif_aead`内核模块来解决这个问题。 CVE-2026-31431 将除亚马逊 Linux 2 之外的所有操作系统的 NVIDIA 驱动程序升级到版本 580.126.20（从 580.105.08 开始），地址为。 CVE-2025-33219 将除亚马逊 Linux 2 之外的所有操作系统的 NVIDIA Fabric Manager 升级到 580.126.20（从 580.105.08 起）。将除亚马逊 Linux 2 之外的所有操作系统的 NVIDIA IMEX 升级到 580.126.20（从 580.105.08 起）。	2026 年 5 月 28 日
Amazon ParallelCluster 3.15.0 版本已发布	要升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster`。增强功能：为除 AL2 之外的所有操作系统添加对 p6-b300 实例的支持。将计算节点中的 cfn-hup 替换为 systemd 计时器，以支持就地更新，从而提高大规模紧密耦合工作负载的性能。禁用`dnf-makecache.timer`以提高大规模紧密耦合工作负载 RHEL/Rocky 的性能。 Support 支持`Tags`在集群更新期间的更新。 `LaunchTemplateOverrides`添加到集群配置中，允许通过覆盖计算资源的启动模板来自定义网络接口。在缺少 clustermgtd 心跳时添加警报。更改：启用 EFA 后， Amazon ParallelCluster 现在会将网络接口配置为`interface`和`efa-only`而不是组合`efa`类型。这样可以将消耗的 IP 地址从每个网卡减少到每个实例一个。将 Slurm 升级到版本 25.11.4（从 24.11.7 开始）。将 Pmix 升级到 5.0.10（从 5.0.6 开始）。将 EFA 安装程序升级到 1.47.0（从 1.44.0 开始）。将除亚马逊 Linux 2 之外的所有操作系统的 NVIDIA 驱动程序升级到 580.105.08 版（从 570.172.08 起）。将 GDRCopy 升级到版本 2.5.2（从 2.4.4 开始）。将 DCV 升级到 2025.0-20103 版本（从 2024.0-19030 开始）。将除亚马逊 Linux 2 之外的所有操作系统的 CUDA Toolkit 升级到 13.0.2 版（从 12.8.1 起）。将除亚马逊 Linux 2 之外的所有操作系统的 Python 升级到 3.14.2（从 3.12.11 开始）。将 Cinc Client 升级到版本 18.8.54（从 18.7.10 开始）。将英特尔 MPI 库升级到 2021.17.2（从 2021.16.0 开始）。将除亚马逊 Linux 2 之外的所有操作系统的 DCGM 升级到 4.5.1 版（从 4.4.1 起）。通过在重试时重置元数据，减少 RHEL 和 Rocky 中因存储库镜像不同步而导致的临时构建映像故障。无论失败情况如何，都要在集群更新和计算队列状态更新失败时启动 clustermgtd。提高集群更新回滚工作流程的弹性。将除亚马逊 Linux 2 之外的所有操作系统的 NVIDIA Fabric Manager 升级到 580.105.08。将 aws-cfn-bootstrap 升级到 2.0-38 版（从 2.0-33 开始）。将除亚马逊 Linux 2 之外的所有操作系统的 mysql-community-client 升级到 8.4.8 版（从 8.0.39 起）。将亚马逊 Linux AMI 的 amazon-efs-utils 升级到 2.4.0 版（从 v2.1.0 起）。将 jmespath 升级到 ~=1.0（从 ~=0.10）。将 tabulate 升级到 <=0.9.0（从 <=0.8.10 开始）。添加验证器以在计算和登录节点上禁用（通过 DevSettings）就地更新时发出警告。错误修复：修复使用具有隐式主路由表关联的公有子网时， LoginNodes NLB 无法公开访问的问题。修复在创建具有 GPU 实例且启用 DCV 但无法访问互联网的集群时出现的故障。修复了当 head/compute /login节点共享同一个安全组时，由于最终一致性而导致集群创建间歇性失败的问题。修复操作系统包过时的 Ubuntu 父映像上安装 ubuntu 桌面时构建映像失败的问题。修复验证问题`HeadNode/LocalStorage`。此配置参数不支持更新。修复验证器`PlacementGroupCapacityReservationValidator`以接受跨账户置放群组的容量预留。修复 CloudWatch 代理配置，确保正确解析所有日志文件中的时间戳。修复日志配置以捕获所有 Slurm 运行状况检查事件（将日志级别从 WARNING 更新为 INFO 以防止丢失日志条目）。通过确保更新期间完成引导的节点上的更新不会失败，从而提高集群更新的弹性。防止群集更新失败恢复过程在 B Amazon atch 集群上运行。此恢复机制只能在 Slurm 集群上执行。弃用：该`LoginNodes/Pools/Ssh/KeyName`配置参数自 3.14.0 起已弃用，不再受支持。这是最后一个支持亚马逊 Linux 2 的 Amazon ParallelCluster 版本，因为亚马逊 Linux 2 将于 2026 年 6 月 30 日终止支持。这是最后一个支持 B Amazon atch CLI 的 Amazon ParallelCluster 版本。从 v3.16.0 开始， Amazon ParallelCluster 将不再支持 Batc Amazon h 作为调度器。	2026 年 3 月 23 日
Amazon ParallelCluster 3.14.2 版本已发布	要升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster`。更改：将 munge 升级到版本 0.5.18（从 0.5.16 开始）以解决问题。CVE-2026-25506 将安装程序中的 NodeJS 版本升级到版本 22.22.0（从 20.18.3 开始）。	2026 年 2 月 16 日
Amazon ParallelCluster 3.14.1 版本已发布	要升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster`。更改：通过确保 clustermgtd 在更新成功完成后或更新失败后在队列重新配置成功后启动 clustermgtd 来提高集群更新的弹性。添加 chef 属性`cluster/in_place_update_on_fleet_enabled`以禁用计算和登录节点的就地更新，并大规模缓解性能影响。将 Slurm 升级到版本 24.11.7（从 24.11.6 开始）。将 Werkzeug 升级到 ~=3.1（从 ~=2.0）以解决问题。CVE-2024-34069 将 Connexion 升级到 ~=2.15.1（从 ~=2.13.0 开始）。将 Flask 升级到 ~=3.1.0（从 >=2.5、<2.3 开始）。如果内核上有 NVIDIA 驱动程序，`drm_client_lib`请在安装 NVIDIA 驱动程序之前加载内核模块。通过安装软件包来减少依赖占用空间，`sssd-common`而不是`sssd`。将除亚马逊 Linux 2 之外的所有操作系统的 libjwt 升级到 1.18.4 版（从 1.17.0 起）。将 amazon-efs-utils 升级到 2.4.0 版（从 v2.3.1 起）。将 EFA 安装程序升级到 1.44.0（从 1.43.2 开始）。 Efa-driver: efa-2.17.3-1 Efa-config: efa-config-1.18-1 Efa-profile: efa-profile-1.7-1 Libfabric-aws: libfabric-aws-2.3.1-1 Rdma-core: rdma-core-59.0-1 打开 MPI：openmpi40-aws-4.1.7-2 和 openmpi50-aws-5.0.8-11 错误修复：修复了 cfn-hup 在回滚到超过 24 小时的集群状态后在头节点上进入无限循环的问题，该问题是由于 cfn-signal 未能发出等待条件句柄过期的信号而导致的。修复了更新失败后计算节点可能部署错误的集群配置版本的争用情况。防止由于在检查过程中启动实例而导致集群就绪检查失败。修复 CloudWatch 代理配置中 chef-client.log 的时间戳解析不正确的问题。在构建映像期间在 Ubuntu 上禁用快照自动刷新，以防止间歇性重启失败。只需保存已安装内核的内核包，即可将 Ubuntu 的 EFA 安装时间缩短 20 分钟。添加`GetFunctionGetPolicy`权限`PClusterBuildImageCleanupRole`以防止在删除构建映像堆栈时出`AccessDenied`错。修复为空或`DevSettings/InstanceTypesData`缺少必填字段时的`DevSettings`验证错误消息。	2025年12月22日
Amazon ParallelCluster 3.14.0 版本已发布	要升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster`。增强功能：包括 P6e-GB200 和 P6-B200 实例的驱动程序。 ParallelCluster 设置一个 Slurm 拓扑插件来处理。 P6e-GB200 UltraServers有关重要的其他设置要求，请参阅 “限制” 部分。 Supp `prioritized` or `capacity-optimized-prioritized` t 和分配策略。这允许用户确定子网的优先顺序进行实例放置，从而优化成本和性能。添加对基于内核 6.12（除了 6.1 之外）的亚马逊 Linux 2023 AMI 的`build-image`支持。在亚马逊 Linux 2023 上支持 DCV。当节点无法启动时，Echo chef-client 会在实例控制台中登录。这有助于在 CloudWatch 日志不可用的情况下调查引导失败。限制： P6e-GB200 实例仅在亚马逊 Linux 2023、Ubuntu 22.04 和 Ubuntu 24.04 上进行测试。在上使用 IMEX P6e-GB200 需要额外的设置。请参阅我们公共文档中的专用教程。 P6-B200 实例仅在亚马逊 Linux 2023、RHEL 8 和 9、Rocky 8 和 9、Ubuntu 22.04 和 Ubuntu 24.04 上进行测试。 GPU HealthChecks 内存超过 320GB 的实例（例如 p6-b200.48xlarge）不建议使用 GPU。Health Check 持续时间可能超过 10 分钟，这可能会导致作业失败并显著降低作业吞吐量。更改：为除亚马逊 Linux 2 之外的所有操作系统安装 nvidia-imex。 `UnkillableStepTimeout`从 slurm.conf 中移除然后让 slurm 设置这个值。将 Lambda 函数使用的 Python 运行时升级到 Python 3.12（从 3.9 开始）。有关 Python 3.9 EOL 的重要信息，请参阅 Lambda 文档。通过新的配置参数，支持对用于头节点内部共享存储的 EFS 文件系统进行加密`HeadNode/SharedStorageEfsSettings/Encrypted`。添加警告不要在 DCV 中使用非 GPU 实例的验证器。将 Slurm 升级到版本 24.11.6（从 24.05.8 开始）。将 EFA 安装程序升级到 1.43.2（从 1.41.0 开始）。 Efa-driver: efa-2.17.2-1 Efa-config: efa-config-1.18-1 Efa-profile: efa-profile-1.7-1 Libfabric-aws: libfabric-aws-2.1.0-5 Rdma-core: rdma-core-58.0-1 打开 MPI：openmpi40-aws-4.1.7-2 和 openmpi50-aws-5.0.6-11 将 Cinc Client 升级到版本 18.4.12（从 18.2.7 开始）。将除亚马逊 Linux 2 之外的所有操作系统的 NVIDIA 驱动程序升级到版本 570.172.08（从 570.86.15 起）。将除亚马逊 Linux 2 之外的所有操作系统的 CUDA Toolkit 升级到 12.8.1 版（从 12.8.0 起）。将除亚马逊 Linux 2 之外的所有操作系统的 DCGM 升级到 4.4.1 版（从 3.3.6 起）。将除亚马逊 Linux 2 之外的所有操作系统的 Python 升级到 3.12.11（从 3.12.8 开始）。将亚马逊 Linux 2 的 Python 升级到 3.9.23（从 3.9.20 开始）。将英特尔 MPI 库升级到 2021.16.0（从 2021.13.1 开始）。将 DCV 升级到 2024.0-19030 版本。将 ParallelCluster 亚马逊 Linux 2023 的官方 AMI 升级到内核 6.12（从 6.1 开始）。错误修复：通过部署一个全局角色来防止`build-image`堆栈删除失败，该角色会在映像生成成功或失败后自动删除`build-image`堆栈。即使在堆栈被删除之后，该角色也应该存在。见https://github.com/aws/aws-parallelcluster/issues/5914。修复了当规则同时包含 IPv4 范围 (IpRanges) 和安全组引用 (UserIdGroupPairs) 时，安全组验证失败的问题。修复 Rocky 9 上的`build-image`故障，即父映像未在最新 Rocky 次要版本上发布最新内核版本时发生的故障。修复了在使用 slurm 记账时会导致集群更新失败的集群 ID 不匹配问题。修复 CloudWatch 代理启动时可能导致节点引导失败的争用条件。弃用：该配置参数`LoginNodes/Pools/Ssh/KeyName`已被弃用，并将在未来的版本中将其删除。现在，在集群配置中使用 CLI 时，它会返回一条警告消息。见https://github.com/aws/aws-parallelcluster/issues/6811。不再支持 Ubuntu 20.04。	2025 年 9 月 30 日
Amazon ParallelCluster 3.13.2 版本已发布	要升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster`。错误修复：修复了当计算资源引用无法再通过 EC2 API 访问的过期容量预留时，可能会导致`update-cluster`和`update-compute-fleet`失败的错误。修复了 Rocky 9 上父映像未发布最新内核版本时出现的`build-image`故障。见https://github.com/aws/aws-parallelcluster/issues/6874。	2025 年 6 月 24 日
Amazon ParallelCluster 3.13.1 版本已发布	要升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster`。更改：将 Slurm 升级到版本 24.05.8。将 EFA 安装程序升级到 1.41.0（从 1.38.1 开始）。 Efa-driver: efa-2.15.0-1 Efa-config: efa-config-1.18-1 Efa-profile: efa-profile-1.7-1 Libfabric-aws: libfabric-aws-2.1.0-1 Rdma-core: rdma-core-57.0-1 打开 MPI：openmpi40-aws-4.1.7-2 和 openmpi50-aws-5.0.6 对于非亚马逊 Linux AMI，将亚马逊 efs-utils 升级到 2.3.1 版（从 v2.1.0 起）。在 us-isob-east-1 和 us-iso-east-1 中支持 DCV。在 us-isob-east-1 和 us-iso-east-1 中支持 Lustre 和 ontap 的 FSX。通过在 ParallelCluster 映像构建开始时固定，在完成时取消固定，确保整个映像构建过程中的内核一致性。错误修复：修复了 ARM Performance Library 安装过程中导致 Amazon 绝密和机 Amazon 密区域构建映像失败的错误。修复了导致脚本 “update_directory_service_password.sh” 无法更新 AD 密码的错误。	2025 年 6 月 4 日
Amazon ParallelCluster 3.13.0 版本已发布	要升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster`。弃用：这是最后一个支持 Ubuntu 20.04 的 ParallelCluster 版本，因为 Ubuntu 20.04 将于 2025 年 5 月推出。 End-Of-Standard-Support 增强功能：添加对 Ubuntu 24.04 的支持。添加对 ap-southeast-7 区域的支持。禁用官方 ParallelCluster AMI 中未使用的服务 cups 和 wpa_supplicant 以提高安全性。更改：将 Slurm 升级到版本 24.05.7。将除 AL2 之外的所有操作系统的 NVIDIA 驱动程序升级到版本 570.86.15（从 550.127.08 起）。将除 AL2 之外的所有操作系统的 CUDA Toolkit 升级到 12.8.0 版（从 12.4.1 起）。将除了 AL2 之外的所有操作系统的 Python 升级到 3.12.8（从 3.9.20 开始）。在 Ubuntu 22.04 上，安装与编译内核时使用的相同编译器版本的 Nvidia 驱动程序。升级`aws-cfn-bootstrap`到 2.0-33 版本。将 EFA 安装程序升级到 1.38.0（从 1.36.0 开始）。 Efa-driver: efa-2.13.0-1 Efa-config: efa-config-1.17-1 Efa-profile: efa-profile-1.7-1 `Libfabric-aws`: `libfabric-aws-1.22.0-1` Rdma-core: rdma-core-54.0-1 Open MPI：`openmpi40-aws-4.1.7-1` 和 `openmpi50-aws-5.0.5` 将 amazon-efs-utils 升级到 2.1.0 版。移除第三方食谱：apt-7.5.22 和 pyenv-4.2.3。升级第三方说明书依赖项：第 4.5.21 行（来自第 4.5.13 行） nfs-5.1.5（来自 nfs-5.1.2） openssh-2.11.14（来自 openssh-2.11.12） yum-7.4.20（来自 yum-7.4.13） yum-epel-5.0.8（来自 yum-epel-5.0.2）将 Pmix 升级到 5.0.6（从 5.0.3 开始）。将 ARM PL 升级到版本 24.10（从 23.10 开始）。在 Lambda 层和安装程序中将 Python 升级到版本 3.12.8（从 3.9.17 开始）。在 Lambda 层和安装程序中将 NodeJS 升级到版本 20.18.3（从 18.20.3 开始）。删除以 DSA 形式为登录节点生成 DSA 密钥，OpenSSH 9.7+ 版本不支持这种密钥。计算节点启动后，在 Slurm 中设置实例 ID 和实例类型信息。安装 NVIDIA 驱动程序时不使用 “no-cc-version-check” 选项，该选项现已在 NVIDIA 安装程序中被弃用。添加验证器以强制使用最多 10 个登录节点池。将默认根卷大小更新为 45 GB。错误修复：取消使用 cfn-init 进行计算节点引导，以缩短节点扩展时间。修复了使用代理时导致计算节点引导失败的问题。在 Ubuntu 22.04 上，使用与编译内核相同的编译器版本安装 Nvidia 驱动程序，以防止安装失败。-修复更新期间仅在头节点上执行覆盖 aws-parallelcluster-node 软件包的问题。修复了在多用户环境（与 Active Directory 集成） Pyxis/Enroot 中执行的容器化作业会失败的问题。修复使用目录服务时，authselect 的使用会导致在 Rocky 9.5+ 上启动节点失败的问题。	2025年4月1日
Amazon ParallelCluster 3.12.0 版本已发布	要升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster`。增强功能：添加新的构建映像配置部分，`Build/Installation`以打开 on/off NVIDIA 软件和 Lustre 客户端的安装。默认情况下，NVIDIA 软件虽然包含在官方 ParallelCluster AMI 中，但不是由`build-image`安装的。默认情况下，已安装 Lustre 客户端。现在，CLI 命令`export-cluster-logs`和`export-image-logs`可以默认将日志导出到默认 ParallelCluster 存储桶或 customs3Bucket（如果在配置中指定）。在 ARM 实例上将 Amazon DCV 支持扩展到 Ubuntu2204。更改：将 NVIDIA 驱动程序升级到版本 550.127.08（从 550.90.07 开始）。这解决了 NVIDIA 的一个已知问题。有关更多信息，请参阅 NVIDIA 数据中心文档中的已知问题。将 Amazon DCV 升级到版本`2024.0-18131`。 server：`2024.0-18131-1` xdcv：`2024.0.631-1` gl：`2024.0.1078-1` web_viewer：`2024.0-18131-1` 将 EFA 安装程序升级到 `1.36.0`。 Efa-driver: `efa-2.13.0-1` Efa-config: `efa-config-1.17-1` Efa-profile: `efa-profile-1.7-1` Libfabric-aws: `libfabric-aws-1.22.0-1` Rdma-core: `rdma-core-54.0-1` Open MPI：`openmpi40-aws-4.1.7-1` 和 `openmpi50-aws-5.0.5` Auto-restart slurmctld 谈失败。将 mysql 社区客户端升级到 8.0.39 版。移除对 Python 3.7 和 3.8 的支持，它们已经过时了。错误修复：修复了在集群更新期间未检测到自定义操作脚本序列更改的问题。为 Amazon ParallelCluster API 添加缺少的权限，以便为 Elastic Load Balancing 和 Auto Scaling 创建服务关联角色，这些角色是部署登录节点所必需的。修复了我们在管理卷时获取区域的方式中的一个问题，使其能够正确处理本地区域。修复了在更新`AccessPointIds`期间添加 EFS 文件系统会失败的问题。修复了在使用 PCAPI 时，更新非类型的参数`String`（例如）时群集更新可能会失败的问题。`MaxCount` 挂载外部 OpenZFS 时，不再需要为端口 111、2049、20001、20002、20003 设置出站规则。	2024 年 12 月 19 日
Amazon ParallelCluster 3.11.1 版本已发布	功能： Pyxis 现在默认为禁用状态，因此必须按照产品文档中的说明手动启用。在 Lambd ParallelCluster a 层中将 Python 运行时升级到版本 3.12。不再将 setuptools 的版本固定为 70.0.0 之前的版本。将 libjwt 升级到 1.17.0 版本。完整更改日志错误修复修复了我们在中配置 Pyxis Slurm 插件的方式中可能 ParallelCluster 导致作业提交失败的问题。通过在公共策略模板中添加登录节点所需的缺少权限，修复了导致登录节点配置中部署失败的问题。 https://github.com/aws/aws-parallelcluster/issues/6483	2024 年 10 月 21 日
Amazon ParallelCluster 3.11.0 版本已发布	增强功能添加对登录节点上的自定义操作的支持。允许 DCV 连接到登录节点。添加对 ap-southeast-3 区域的支持。向登录节点网络负载均衡器添加安全组。为登录节点添加`AllowedIps`配置。添加新配置`SharedStorage/EfsSettings/AccessPointId`以为装载指定可选的 EFS 接入点允许最多 10 个登录节点池。在官方 pcluster AMI 中安装 enroot 和 pyxis 更改 [B REAKING] API `DescribeCluster` 和 CLI 命令返回的`loginNodes`字段`describe-cluster`已从字典更改为数组，以支持多个登录节点池。此更改破坏了向后兼容性，使这些操作与使用旧版本部署的集群不兼容。将 Slurm 升级到 23.11.10（从 23.11.7 开始）。将 Pmix 升级到 5.0.3（从 5.0.2 开始）。将 EFA 安装程序升级到 `1.34.0`。 Efa-driver: `efa-2.10.0-1` Efa-config: `efa-config-1.17-1` Efa-profile: `efa-profile-1.7-1` Libfabric-aws: `libfabric-aws-1.22.0-1` Rdma-core: `rdma-core-52.0-1` Open MPI：`openmpi40-aws-4.1.6-3` 和 `openmpi50-aws-5.0.3-11` 将 NVIDIA 驱动程序升级到版本 550.90.07（从 535.183.01 开始）。将 CUDA 工具包升级到版本 12.4.1（从 12.2.2 开始）。将 Python 升级到 3.9.20（从 3.9.19 开始）。将英特尔 MPI 库升级到 2021.13.1.769（从 2021.12.1.8 开始）。错误修复修复验证器，`EfaPlacementGroupValidator`使其在使用容量块时不建议配置置放群组。确保按照安全组规则创建 FSx for Lustre 文件系统，修复偶尔出现的集群创建失败。修复启用置放群组时集群删除失败的问题。修复了在限制 SSH 访问时登录节点被标记为不健康的问题。修复后`retrieve_supported_regions`，它可以获得正确的 S3 网址。修复`describe_images`为使用分页。 `No route tables found`修复了将默认 VPC 子网指定为时的错误 LoginNodes/Networking/SubnetIds。	2024 年 9 月 26 日
Amazon ParallelCluster 3.10.1 版本已发布	错误修复修复中国区域的镜像构建失败。	2024 年 7 月 8 日
Amazon ParallelCluster 3.10.0 版本已发布	增强功能：添加新的配置部分`Scheduling/SlurmSettings/ExternalSlurmdbd`以将集群连接到外部 Slurmdbd。在《 Amazon 绝密》和《秘密区域》中添加对构建镜像的 Amazon 支持。添加对亚马逊 Linux 2023 的支持。添加对 `price-capacity-optimized` as 的支持`AllocationStrategy`。添加验证器以防止使用带有容量块的置放组。更改：不再支持 CentOS 7。将 Cinc Client 从 18.2.7 升级到 18.4.12 版本。将 munge 升级到版本 0.5.16（从 0.5.15 开始）。将 Pmix 升级到 5.0.2（从 4.2.9 开始）。升级第三方说明书依赖项： apt-7.5.22（来自 apt-7.5.14） openssh-2.11.12（来自 openssh-2.11.3）移除第三方食谱：selinux-6.1.12。将 EFA 安装程序升级到 `1.32.0`。 Efa-driver: `efa-2.8.0-1` Efa-config: `efa-config-1.16-1` Efa-profile: `efa-profile-1.7-1` Libfabric-aws: `libfabric-aws-1.21.0-1` Rdma-core: `rdma-core-50.0-1` Open MPI：`openmpi40-aws-4.1.6-3` 和 `openmpi50-aws-5.0.2-12` 将 NVIDIA 驱动程序升级到版本 535.183.01（从 535.154.05 开始）。将 Python 升级到 3.9.19（从 3.9.17 开始）。将英特尔 MPI 库升级到 2021.12.1.8（从 2021.9.0.43482 起）。错误修复：将数据存储库关联配置修复为`AutoExportPolicy`可`AutoImportPolicy`选配置。修复了集群删除期间的一个问题，该问题现在可以在实例处于关闭或终止状态时完成计算队列清理。这是为了避免终止周期较长的实例类型的集群删除失败。允许在集群配置`Monitoring`部分启用 cloudwatch 控制面板并禁用警报。允许 ParallelCluster 自定义资源使用禁止验证器。`PclusterCluster/SuppressValidators` 将其删除，`/etc/profile.d/pcluster.sh`这样就不会在每次用户登录时执行该操作，`cfn_bootstrap_virtualenv`也不会将其添加到 PATH 环境变量中。通过将字段`failureReason`替换为`DescribeCluster`响应来修复 ParallelCluster API 规范。`failures` 通过添加缺失的 CloudFormation 堆栈状态来修复 ParallelCluster API 规范：`IMPORT_*`、`REVIEW_IN_PROGRESS`和`UPDATE_FAILED`。修复了阻止集群更新包含传输中加密的 EFS 文件系统的问题。修复了在将 EFS 用于共享内部数据时，slurmctld 和 slurmdbd 服务无法在头节点重启时重新启动的问题。在 Ubuntu 系统上，移除与来自的配置冲突的 cloud-init 日志文件的默认 logrotate 配置。 ParallelCluster 使用 RHEL 8.10 或更高版本修复图像构建失败。	2024 年 6 月 27 日
Amazon ParallelCluster 3.9.3 版本已发布	要进行升级，请键入 `sudo pip install --upgrade aws-parallelcluster` 功能：在 `us-iso-east-1` 中增加了对 `FSx Lustre` 作为共享存储类型的支持。错误修复：从 Slurm 配置的 `SlurmctldParameters` 中移除 `cloud_dns`，以避免出现 Slurm 扇出问题。这不是必需的，因为我们是在实例启动时设置 IP 地址的。	2024 年 6 月 19 日
Amazon ParallelCluster 3.9.2 版本已发布	功能：将 Slurm 升级到 23.11.7（从 23.11.4 起）。有关更多详细信息，请参阅`CHANGELOG3.9.2`上的 GitHub。	2024 年 5 月 28 日
Amazon ParallelCluster 3.9.1 版本已发布	要进行升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster` 错误修复在更新集群操作中卸载文件系统时，移除对共享存储 mountdir 的递归删除。	2024 年 4 月 11 日
Amazon ParallelCluster 3.9.0 版本已发布	要进行升级，请输入以下内容：`sudo pip install --upgrade aws-parallelcluster` 增强功能：添加配置参数 `DeploymentSettings/DefaultUserHome`，使用户能够将默认用户的主目录移到 `/local/home` 而不是 `/home`（默认）。允许更新 `MinCount`、`MaxCount`、`Queue` 和 `ComputeResource` 配置参数，而无需停止计算实例集。现在可以通过将 `Scheduling/SlurmSettings/QueueUpdateStrategy` 设置为 TERMINATE 来更新它们。 Amazon ParallelCluster 只终止通过集群更新调整集群容量时移除的节点。允许在 FileCache 不替换计算和登录队列的情况下更新 Efs FsxLustre FsxOntap、、 FsxOpenZfs 和类型的外部共享存储。增加了对 RHEL9 的支持。增加了对 Rocky Linux 9 的支持，作为通过 `build-image` 过程创建的 `CustomAmi`。目前还没有官方的 Amazon ParallelCluster Rocky9 Linux AMI 可用。 `CommunicationParameters`从 “自定义 Slurm 设置” 拒绝列表中移除。添加 `DeploymentSettings/DisableSudoAccessForDefaultUser` 参数，在支持的操作系统中禁用默认用户的 sudo 访问权限。对适用于 Lustre 文件系统的 FSx 的更改 ParallelCluster创建者：将 Lustre 服务器版本更改为 `2.15.` 通过 `['cluster']['nvidia']['kernel_open']` cookbook 节点属性，增加在构建 AMI 时选择开放源代码和封闭源代码 Nvidia 驱动程序的可能性。 * 添加一个 clustermgtd 配置选项 `ec2_instance_missing_max_count`，允许对 Amazon EC2 描述实例与运行实例的最终一致性进行可配置的重试次数。更改将 Slurm 升级到 23.11.4（从 23.02.7 开始）。将 NVIDIA 驱动程序升级到版本 535.154.05。在 pcluster CLI 和 aws-parallelcluster-batch-cli 中添加对 Python 3.11、3.12 的支持。使用 Amazon EC2 DescribeInstances 响应`NetworkCardIndex`列表中的网卡索引构建网络接口，而不是遍历`MaximumNetworkCards`范围。使用 P3、G3、P2 和 G2 类型实例时，集群创建失败，因为其 GPU 架构与 3.8.0 版中引入的开源 Nvidia 驱动程序（OpenRM）不兼容。升级第三方 cookbook 依赖项：nfs-5.1.2（从 nfs-5.0.0 升级）将 EFA 安装程序升级到 `1.30.0.` Efa-driver: `efa-2.6.0-1` Efa-config: `efa-config-1.15-1` Efa-profile: `efa-profile-1.6-1` Libfabric-aws: `libfabric-aws-1.19.0` Rdma-core: `rdma-core-46.0-1` Open MPI：`openmpi40-aws-4.1.6-2` 和 `openmpi50-aws-5.0.0-11` 将 NICE DCV 升级到版本 `2023.1-16388.` server：`2023.1.16388-1` xdcv：`2023.1.565-1` gl：`2023.1.1047-1` web_viewer：`2023.1.16388-1` 错误修复修复以 Active Directory 用户身份从登录节点提交作业时会失败的问题。该问题是由于在头节点上与外部 Active Directory 集成的配置不完整造成的。重构在 CloudFormation 模板 parallelclusser-policies.yaml 中定义的 IAM 策略，以防止 ParallelCluster 因策略超过 IAM 限制而导致 API 部署失败。修复当头节点写入密钥的时间超过预期时，登录节点启动失败的问题。有关更改的详细信息，请参阅上的 aws-parallelcluster-ui 软件包的`CHANGELOG`文件。 GitHub	2024 年 3 月 5 日
Amazon ParallelCluster 3.8.0 版本已发布	Amazon ParallelCluster 3.8.0 版本已发布。增强功能：增加了对适用于 ML 的 Amazon EC2 容量块的支持。增加了对 Rocky Linux 8 的支持，作为通过 `build-image` 过程创建的 `CustomAmi`。目前还没有官方的 Amazon ParallelCluster Rocky8 Linux AMI 可用。添加`Scheduling/ScalingStrategy`参数以控制在为 Slurm 计算节点启动 Amazon EC2 实例时要使用的集群扩展策略。可能的值为 `all-or-nothing`、`greedy-all-or-nothing`、`best-effort`，默认值为 `all-or-nothing`。添加`HeadNode/SharedStorageType`参数以使用 EFS 存储，而不是从头节点根卷导出 NFS 来存储集群内共享文件系统资源：Intel ParallelCluster、Slurm 和数据。`/home`此增强功能减少了头节点联网的负载。允许通过配置文件的 `SharedStorage` 部分将 `/home` 挂载为 EFS 或 FSx 外部共享存储。添加新参数`SlurmSettings/MungeKeySecretArn`以允许使用来自 Secrets Manager 的外部用户定义的 MUNGE Amazon 密钥。添加`Monitoring/Alarms/Enabled`参数以切换集群的 Amazon CloudWatch 警报。添加头节点警报以监控 Amazon EC2 运行状况检查、CPU 利用率和头节点的整体状态，并将其添加到使用集群创建的 CloudWatch 控制面板中。将 `PERSISTENT_2` 用作托管式 FSx for Lustre 的 `DeploymentType` 时，添加对数据存储库关联的支持。添加`Scheduling/SlurmSettings/Database/DatabaseName`参数以允许用户为数据库服务器上用于 Slurm 记账的数据库指定自定义名称。在计算资源中配置 `CapacityReservationTarget/CapacityReservationId` 时，将 `InstanceType` 作为可选配置参数。增加为 Amazon ParallelCluster API 创建的 IAM 角色和策略指定前缀的可能性。增加了为由 Amazon ParallelCluster API 创建的 IAM 角色和策略指定要应用的权限边界的可能性。更改将 Slurm 升级到 23.02.7（从 23.02.6 开始）。将 NVIDIA 驱动程序升级到版本 535.129.03。将 CUDA 工具包升级到版本 12.2.2。使用开源 NVIDIA GPU 驱动程序（OpenRM）作为 Linux 的 NVIDIA 内核模块，而不是 NVIDIA 封闭源代码模块。移除 Slurm 恢复程序中对`all_or_nothing_batch`配置参数的支持，转而使用新的`Scheduling/ScalingStrategy`集群配置。将集群警报命名约定更改为“[cluster-name]-[component-name]-[metric]”。将根卷和其他卷的 S Amazon ecret 和 Top Secret 区域的默认 EBS 卷类型从 gp2 更改为 gp3。 API 的可选权限边界现已应用于 Amazon ParallelCluster API 基础设施创建的每个 IAM 角色。将 EFA 安装程序升级到 `1.29.1`。 Efa-driver: `efa-2.6.0-1` Efa-config: `efa-config-1.15-1` Efa-profile: `efa-profile-1.5-1` Libfabric-aws: `libfabric-aws-1.19.0-1` Rdma-core: `rdma-core-46.0-1` Open MPI：`openmpi40-aws-4.1.6-1` 在所有支持的操作系统中，将 GDRCopy 升级到 2.4 版，但 Centos 7 除外，它使用的是 2.3.1 版。将 `aws-cfn-bootstrap` 升级到版本 2.0-28。在 aws-parallelcluster-batch-cli 中添加对 Python 3.10 的支持。错误修复修复了在修改计算资源中声明的实例类型列表时，集群更新回滚后扩展配置不一致的问题。修复了通过集群配置文件与外部 LDAP 服务器集成的集群中切换无 root 权限用户时的用户 SSH 密钥生成问题。修复了在设置时禁用 Slurm 省电模式的问题。`ScaledownIdletime = -1` 修复 Slurm Accounting `update_slurm_database_password.sh` 脚本中指向 Slurm 安装目录的硬编码路径。	2023 年 12 月 19 日
Amazon ParallelCluster 3.7.2 版本已发布	Amazon ParallelCluster 3.7.2 版本已发布。更改：将 Slurm 升级到 23.02.6。	2023 年 10 月 25 日
Amazon ParallelCluster 3.7.1 版本已发布	Amazon ParallelCluster 3.7.1 版本已发布。更改：将 Slurm 升级到 23.02.5（从 23.02.4 开始）。将 Pmix 升级到 4.2.6（从 3.2.3 升级）。将 libjwt 升级到 1.15.3（从 1.12.0 升级）。将 EFA 安装程序升级到 `1.26.1`，修复 P5 中的 RDMA 写入数据问题。 Efa-driver: `efa-2.5.0-1`. Efa-config: `efa-config-1.15-1`. Efa-profile: `efa-profile-1.5-1`. Libfabric-aws: `libfabric-aws-1.18.2-1`. ERdma-core: `rdma-core-46.0-1`. Open MPI：`openmpi40-aws-4.1.5-4`。	2023 年 9 月 22 日
Amazon ParallelCluster 3.7.0 版本已发布	Amazon ParallelCluster 3.7.0 版本已发布。增强功能： Support 使用配置 YAML 文件在计算资源中 Amazon ParallelCluster 配置静态和动态节点优先级。增加了对 Ubuntu 22 的支持。默认情况下不支持 RSA 密钥。添加了队列配置设置 `JobExclusiveAllocation`，用于在任何给定时间在分区中以独占模式将节点分配给单个作业。允许在创建集群和更新集群时覆盖 `aws-parallelcluster-node` 程序包。对于头节点，这适用于集群更新。仅用于开发目的。避免在计算节点上启动 NFS 服务器。添加了对登录节点的支持。当为 Slurm 计算资源指定了多种实例类型时，允许进行基于内存的调度。添加了支持，允许将现有 Amazon 文件缓存作为共享存储进行挂载。更改：默认情况下，将 Slurm 动态节点的优先级（权重）分配为 1000。通过这样做，Slurm 可以将闲置的静态节点优先于空闲的动态节点。使`aws-parallelcluster-node`守护程序仅处理 Amazon ParallelCluster 托管的 Slurm 分区。将 `EFS-utils` 监视器轮询间隔增加到 10 秒。当 `EncryptionInTransit` 设置为 `true` 时（这是导致监视器运行的唯一条件），此更改适用。将 EFA 安装程序升级到 `1.25.1`。 Efa-driver:`efa-2.5.0-1`（来自`efa-2.1.1g`） Efa-config:`efa-config-1.15-1`（来自`efa-config-1.13-1`） Efa-profile:`efa-profile-1.5-1`（无变化） Libfabric-aws:`libfabric-aws-1.18.1-0`（来自`libfabric-aws-1.17.1-1`） Rdma-core:`rdma-core-46.0-1`（来自`rdma-core-43.0-1`） Open MPI：`openmpi40-aws-4.1.5-4`（从 `openmpi40-aws-4.1.5-1`）将 Slurm 升级到 23.02.4 版。将的默认值 Imds/ImdsSupport 从 v1.0 更改为 2.0。弃用 Ubuntu 18。将默认根卷大小更新为 40 GB，以补偿对 Centos 7 的限制。限制头节点内文件/ tmp/wait_condition_handle .txt 的权限，以便只有 root 用户才能读取它。创建一个 Slurm 分区节点列表映射 JSON 文件，供节点包守护程序用来识别 Slurm 分区和节点列表。 PC-managed 将 NVIDIA 驱动程序升级到版本 535.54.03。将 CUDA 库升级到版本 12.2.0。将 NVIDIA Fabric Manager 升级到 nvidia-fabricmanager-535。将 ARM PL 升级到版本 23.04.1，仅适用于 Ubuntu 22.04。将 NICE DCV 升级到版本 `2023.0-15487`。 Server：`2023.0.15487-1` xdcv：`2023.0.551-1` gl：`2023.0.1039-1` web_viewer：`2023.0.15487-1` 错误修复：为 `ScaledownIdletime` 值添加验证功能，以防止设置的值低于 -1。修复了在启用 DCV 的 GPU 实例上使用 Ubuntu 深度学习 AMI 创建集群失败的问题。修复了使用创建 ParallelCluster CloudFormation 自定义资源提供商时导致创建悬而未决的 IAM 策略的问题 CustomLambdaRole。修复了使用等于 `True` 的 `SlurmSettings/Dns/UseEc2Hostnames` 时导致具有多个网络接口的实例上的计算节点 DNS 名称不一致的问题有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2023 年 8 月 30 日
仅文档发布	Amazon ParallelCluster 第 3 版特定用户指南已发布。仅文档发布： Amazon ParallelCluster 版本 3 有自己的单独用户指南。	2023 年 7 月 17 日
Amazon ParallelCluster 版本 3.6.1 已发布	Amazon ParallelCluster 3.6.1 版本已发布。更改： `clustermgtd`如果将计算节点添加到多个 Slurm 分区，请避免出现重复的节点。错误修复：删除根卷设备名称（`/dev/sda1`和`/dev/xvda`）的硬编码，然后从期间`create-cluster`使用的 AMI 中检索它。修复使用`ElasticIp`设置为的 CloudFormation 自定义资源时集群创建失败的问题`True`。修复使用包含大型配置文件的 Amazon CloudFormation 自定义资源时集群创建和更新失败的问题。修复了无法在 Ubuntu 上禁用 `ptrace` 保护并且不允许在 libfabric 中进行跨内存附加 (CMA) 的问题。修复了使用多个实例类型且未返回任何实例时的快速容量不足故障转移逻辑。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2023 年 7 月 5 日
Amazon ParallelCluster 3.6.0 版本已发布	Amazon ParallelCluster 3.6.0 版本已发布。文档：为 Amazon ParallelCluster Python 库 API 添加文档。增强功能：增加了对 RHEL8 的支持。添加用于创建和管理集群的Amazon CloudFormation 自定义资源 CloudFormation。在配置 YAML 文件中添加对自定义集群 Slurm Amazon ParallelCluster 配置的支持。在支持 LUA 的情况下构建 Slurm。将每个集群的最大队列数限制从 10 增加到 50。每个队列最多可以有 50 个计算资源。每个集群最多可以有 50 个计算资源。添加了支持，允许为 `OnNodeStart`、`OnNodeConfigured` 和 `OnNodeUpdated` 参数中配置的事件指定一系列多个自定义操作脚本。添加了新的配置部分 `HealthChecks`/`Gpu`，用于在运行作业之前在计算节点上应用 GPU 运行状况检查。在 `SlurmQueues` 和`SlurmQueues`/`ComputeResources` 配置中增加了对 `Tags` 的支持。在 `Monitoring` 配置中增加了对 DetailedMonitoring 的支持。在 Amazon ParallelCluster CloudWatch 仪表板中添加`mem_used_percent`头节点内存和根卷磁盘利用率跟踪`disk_used_percent`指标，并设置警报以监控这些指标。对 Amazon ParallelCluster 托管的日志添加了日志轮换支持。在CloudWatch 控制面板中跟踪常见的计算节点错误和动态节点最长空闲时间。在创建 SSL 套接字时，强制 DCV Authenticator Server 至少使用 `TLS-1.2` 协议。在除 `aarch64` `centos7` 和 `alinux2` 之外的所有支持的操作系统上安装 NVIDIA Data Center GPU Manager (DCGM) 程序包。默认加载内核模块 nvidia-uvm，为 CUDA 驱动程序提供统一虚拟内存 (UVM) 功能。安装 NVIDIA 持久性进程守护程序作为一项系统服务。更改：将 Slurm 升级到版本`23.02.2`（从版本`22.05.8`开始）。将 munge 升级到版本 `0.5.15`（从版本 `0.5.14`）。将 Slurm 设置为 30 `TreeWidth`。将 Slurm `prolog` 和`epilog`配置分别设置为目标目录`/opt/slurm/etc/scripts/prolog.d/`和。`/opt/slurm/etc/scripts/epilog.d/` 将 Slurm 设置为 3 分钟`BatchStartTimeout`，以便在注册计算节点期间运行`Prolog`脚本。将默认`RetentionInDays` CloudWatch 日志从 14 天增加到 180 天。将 EFA 安装程序升级到 `1.22.1`。 Dkms：`2.8.3-2` Efa-driver:`efa-2.1.1g`（无变化） Efa-config:`efa-config-1.13-1`（无变化） Efa-profile:`efa-profile-1.5-1`（无变化） Libfabric-aws:`libfabric-aws-1.17.1-1`（来自`libfabric-aws-1.17.0-1`） Rdma-core:`rdma-core-43.0-1`（无变化） Open MPI：`openmpi40-aws-4.1.5-1`（无变化）在 Amazon Linux 2 上将 Lustre 客户端版本升级到 `2.12`。Lustre 客户端 `2.12` 已经安装在 Ubuntu 20.04、18.04 和 CentOS >= 7.7 上。在 CentOS 7.6 上将 Lustre 客户端版本升级到 `2.10.8`。将 NVIDIA 驱动程序升级到版本 `470.182.03`（从版本 `470.141.03`）。将 NVIDIA Fabric Manager 升级到版本 `470.182.03`（从版本 `470.141.03`）。将 NVIDIA CUDA Toolkit 升级到版本 `11.8.0`（从版本 `11.7.1`）。将 NVIDIA CUDA 示例升级到版本 `11.8.0`。将 Intel MPI Library 升级到 2021 年版更新 9（从 2021 年版更新 6）。有关更多信息，请参阅 Intel® MPI Library 2019 更新 9。将 NICE DCV 升级到版本 `2023.0-15022`（从版本 `2022.2-14521`）。 server：`2023.0.15022-1`（从版本 `2022.2-14521-1`）。 xdcv：`2023.0.547-1`（从版本 `2022.2.519-1`）。 gl：`2023.0.1027-1`（从版本 `2022.2.1012-1`）。 web_viewer：`2023.0.15022-1`（从版本 `2022.2.14521-1`）。将 `aws-cfn-bootstrap` 升级到版本 `2.0-24`。升级 CodeBuild 环境在为 Batc Amazon h 集群构建容器镜像时使用的镜像： `aws/codebuild/amazonlinux2-x86_64-standard:4.0`（从 `aws/codebuild/amazonlinux2-x86_64-standard:3.0`）。 `aws/codebuild/amazonlinux2-aarch64-standard:2.0`（从 `aws/codebuild/amazonlinux2-aarch64-standard:1.0`）。错误修复：修复了 Amazon EFS 和 Amazon FSx 网络安全组验证器以避免误报错。修复了 Image Builder 在 `build-image` 操作期间创建的资源缺少标记的问题。修复了 `MaxCount` 的更新策略，使其始终对 `MaxCount` 属性进行数值比较。修复了具有多个网卡的计算节点实例上的 IP 一致性问题。修复了`StoragePass`在执行队列参数更新且未更新 Slurm 记账配置`slurm_parallelcluster_slurmdbd.conf`时替换的问题。修复了使用现有 EFS 文件系统创建集群时导致创建虚安全组的问题。修复了重启 `cfn-hup` 进程守护程序时导致其失败的问题。在 Slurm 保护模式下，将带有`INVALID_REG`标记的动态节点视为引导失败。在 Slurm 注册失败之后，静态节点已被视为引导失败。`node_replacement_timeout` 有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2023 年 5 月 22 日
Amazon ParallelCluster 3.5.1 版本已发布	Amazon ParallelCluster 3.5.1 版本已发布。增强功能：添加了独立的 `pcluster` CLI 安装程序可执行文件。更改：将 EFA 安装程序升级到 `1.22.0`。 Efa-driver:`efa-2.1.1g`（来自`efa-2.1.1-1`） Efa-config:`efa-config-1.13-1`（来自 efa-config-1.12-1） Efa-profile:`efa-profile-1.5-1`（无变化） Libfabric-aws:`libfabric-aws-1.17.0-1`（来自`libfabric-aws-1.16.1amzn3.0-1`） Rdma-core:`rdma-core-43.0-1`（无变化） Open MPI：`openmpi40-aws-4.1.5-1`（从 `openmpi40-aws-4.1.4-3`）将 NICE DCV 升级到版本 `2022.2-14521`。 server：`2022.2.14521-1` xdcv：`2022.2.519-1` gl：`2022.2.1012-1` web_viewer：`2022.2.14521-1` 错误修复：修复了在集群更新过程中删除共享 Amazon EBS 卷时因 `MountDir` 和 `/etc/exports` 之间的模式匹配而导致的潜在节点启动失败问题。修复了每次 `clustermgtd` 迭代时 `compute_console_output` 日志文件被截断的问题。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2023 年 3 月 29 日
Amazon ParallelCluster 3.5.0 版本已发布	Amazon ParallelCluster 3.5.0 版本已发布。增强功能：使用 Amazon ParallelCluster UI 访问和管理集群。在 CloudFormation 模板中添加版本化 Amazon ParallelCluster 策略，供您在工作负载中引用。添加可与自己的代码一起使用的 Amazon ParallelCluster Python 库。在计算节点引导失败时向 Amaz CloudWatch on 添加计算节点控制台输出的日志记录。集群创建失败时向 `describe-cluster` 输出中添加了包含失败代码和原因的失败字段。添加了验证器以防止在调用子进程模块时注入恶意字符串。在配置静态节点时，如果集群状态更改为 `PROTECTED`，则集群创建将失败。更改：升级到 Slurm 版本`22.05.8`（从版本开始）`22.05.7` 将 EFA 安装程序升级到 `1.21.0`。 Efa-driver:`efa-2.1.1-1`（来自`efa-2.1`） Efa-config:`efa-config-1.12-1`（来自 efa-config-1.11-1） Efa-profile:`efa-profile-1.5-1`（无变化） Libfabric-aws:`libfabric-aws-1.16.1amzn3.0-1`（来自`libfabric-aws-1.16.1`） Rdma-core:`rdma-core-43.0-1`（来自`rdma-core-43.0-2`） Open MPI：`openmpi40-aws-4.1.4-3`（无变化）让 Slurm 控制器日志更加详细，并为 Slurm 省电插件启用额外的日志记录。错误修复：启用 Slurm 记账后，通过验证集群名称是否不超过 40 个字符来修复集群数据库创建问题。修复了在 `clustermgtd` Amazon EC2 实例状态检查失败时导致通过 Slurm 重启的计算节点被替换的问题。修复了由于头节点上的 IAM 策略不正确而导致与其他账户共享容量预留的计算节点无法启动的问题。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node 和 aws-parallelcluster- ui 软件包的`CHANGELOG`文件。 GitHub	2023 年 2 月 20 日
Amazon ParallelCluster 3.4.1 版本已发布	Amazon ParallelCluster 3.4.1 版本已发布。错误修复：修复了 Slurm 调度器问题，该问题可能导致计算节点内部注册表的更新应用不正确。如果发生此问题，EC2 实例可能会变得不可用，或者可能由不正确的实例类型提供支持。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2023 年 1 月 13 日
Amazon ParallelCluster 3.4.0 版本已发布	Amazon ParallelCluster 3.4.0 版本已发布。增强功能：增加了对跨多个可用区启动节点的支持，以提高容量可用性。增加了对为每个队列指定多个子网的支持，以提高容量可用性。在 I am/中添加新的配置参数 ResourcePrefix，为创建的 IAM 资源的路径和名称指定前缀 Amazon ParallelCluster。添加新的配置部分 DeploymentSettings/，LambdaFunctionsVpcConfig用于指定 Amazon ParallelCluster Lambda 函数使用的 Vpc 配置。添加了指定要在集群更新期间在头节点中运行的自定义脚本的功能。使用 Slurm 作为调度器OnNodeUpdated时，可以用 CustomActions/HeadNode/指定脚本。更改：取消为现有文件系统创建 Amazon EFS 挂载目标。使用 `amazon-efs-utils` 挂载 EFS 文件系统。可以使用传输中加密和 IAM 授权用户来挂载 EFS 文件系统。在 Centos7 和 Ubuntu 上安装 stunnel 5.67 以支持 EFS 传输中加密。将 EFA 安装程序升级到 `1.20.0`（从 `1.18.0`）。 Efa-driver:`efa-2.1`（来自`efa-1.16.0-1`） Efa-config:`efa-config-1.11-1`（无变化） Efa-profile:`efa-profile-1.5-1`（无变化） Libfabric-aws:`libfabric-aws-1.16.1`（来自`libfabric-aws-1.16.0~amzn4.0-1`） Rdma-core: `rdma-core-43.0-2` 来自 (`rdma-core-41.0-2`) Open MPI：`openmpi40-aws-4.1.4-3`（从 `openmpi40-aws-4.1.4-2`）将 Slurm 升级到版本 `22.05.7`（从 `22.05.5`）。将 Python 升级到 `3.9.16` 和 `3.7.16`（从 `3.9.15` 和 `3.7.13`）。使用 Slurm`22.05.7`，处于`IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING`状态的动态节点不会被视为不健康。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2022 年 12 月 22 日
Amazon ParallelCluster 3.3.1 版本已发布	Amazon ParallelCluster 3.3.1 版本已发布。更改：在 Amazon EC2 弃用两年后，官方 Amazon ParallelCluster 产品 AMI 现已上市。将 Amazon ParallelCluster API Lambda 的内存大小增加到 2048，以减少冷启动惩罚并避免超时。错误修复：在进行包括更改计算实例集子网 ID 的集群更新时，防止替换托管的 FSx for Lustre 文件系统并防止数据丢失。 SharedStorage `DeletionPolicy` 适用于集群更新操作。有关更改的详细信息，请参阅上的 aws-parallel cluster 软件包`CHANGELOG`文件。 GitHub	2022 年 12 月 2 日
Amazon ParallelCluster 仅限文档 hpc6id 注意	Amazon ParallelCluster 仅限文档的更新 Amazon ParallelCluster 不支持 /设置的 hpc6id 实例类型。HeadNode InstanceType	2022 年 12 月 2 日
Amazon ParallelCluster 3.1.5 版本已发布	Amazon ParallelCluster 3.1.5 版本已发布。增强功能：修复了阻止空闲节点终止的 Slurm 问题。将 EFA 安装程序升级到 1.18.0 Efa-driver: `efa-1.16.0-1` Efa-config:`efa-config-1.11-1`（来自`efa-config-1.9-1`） Efa-profile:`efa-profile-1.5-1`（无变化） Libfabric-aws:`libfabric-aws-1.16.0~amzn4.0-1`（来自`libfabric-1.13.2`）。 Rdma-core:`rdma-core-41.0-2`（来自`rdma-core-37.0`） Open MPI：`openmpi40-aws-4.1.4-2`（从 `openmpi40-aws-4.1.1-2`）更改：将`lambda:ListTags`和`lambda:UntagResource`添加到`ParallelClusterUserRole`用于集群更新的 Amazon ParallelCluster API 堆栈中。将 Intel MPI Library 升级到 2021 年版更新 6（从 2021 年版更新 4）。有关更多信息，请参阅 Intel® MPI Library 2021 更新 6。将 NVIDIA 驱动程序升级到版本 470.141.03（从 470.103.01）。将 NVIDIA Fabric Manager 升级到版本 470.141.03（从 470.103.01）。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2022 年 11 月 16 日
Amazon ParallelCluster 3.3.0 版本已发布	Amazon ParallelCluster 3.3.0 版本已发布。增强功能：使用 Slurm 作为调度器时，添加对计算资源的多实例分配配置的支持。有关更多信息，请参阅使用 Slurm 进行多实例类型分配。增加了对使用更新配置进行集群更新时添加和删除 SharedStorage 的支持。有关更多信息，请参阅共享存储。为 E fs 和FsxLustre共享存储设置添加新的配置参数`DeletionPolicy`以支持存储保留。使用新的配置参数 Scheduling/SlurmSettings/Database 添加对 Slurm 记账的支持。有关更多信息，请参阅 Slurm 使用记账。 Amazon ParallelCluster 添加对 On-Demand 容量预留 (ODCR) 和容量预留资源组的支持。有关更多信息，请参阅使用 On-Demand 容量预留 (ODCR) 启动实例。添加新的配置参数以指定要在集群中支持的 IMDS 版本或在集群中构建映像基础架构，即 I mds/和 build ImdsSupport、Imds/ImdsSupport、配置。在/ComputeResources部分添加对网络 SlurmQueues/PlacementGroup的支持。增加了对具有多个网络接口并且每个设备仅限一个 ENI 的实例的支持。通过检查附加的安全组中的 CIDR 块，改进了外部 Amazon EFS 文件系统的网络验证。添加了用于检查配置的实例类型是否支持置放群组的验证器。将 NFS 线程数配置为 min(256, max(8, num_cores * 4)) 以确保更好的稳定性和性能。将 NFS 安装移至构建时以减少配置时间。为部署 Amazon ParallelCluster API 时创建的、用于通知 docker 镜像构建事件的 EcrImageBuilder SNS 主题启用服务器端加密。更改：更改 SlurmQueues/联网 //的行为`Enabled`。PlacementGroup现在，它会为每个计算资源创建一个唯一的托管置放群组，而不是为所有计算资源创建一个托管置放群组。添加对 SlurmQueues/网络/PlacementGroup/名称作为首选命名方法的支持。将头节点标签从启动模板移动到了实例定义中，以避免在标签更新时替换头节点。通过 `cloud-init` 执行的脚本而不是通过启动模板中设置的 `CpuOptions` 禁用多线程处理。在 API 基础架构、API Docker 容器和集群 Lambda 资源中将 Python 升级到版本 3.9，将 NodeJS 升级到版本 16。在 `aws-parallelcluster-batch-cli` 中删除了对 Python 3.6 的支持。将 Slurm 升级到版本 `22.05.5`（从 `21.08.8-2`）。将 NVIDIA 驱动程序升级到版本 `470.141.03`（从 `470.129.06`）。将 NVIDIA Fabric Manager 升级到版本 `470.141.03`（从 `470.129.06`）。将 NVIDIA CUDA Toolkit 升级到版本 11.7.1（`from 11.4.4`）。将 v Amazon ParallelCluster irtualenvs 中使用的 Python 从`3.7.13`升级到。`3.9.15` 将 EFA 安装程序升级到版本 1.18.0。 Efa-driver:`efa-1.16.0-1`（无变化） Efa-config: `efa-config-1.11-1` (`from efa-config-1.10-1`) Efa-profile:`efa-profile-1.5-1`（无变化） Libfabric-aws:`libfabric-aws-1.16.0~amzn4.0-1`（来自`libfabric-aws-1.16.0~amzn2.0-1`）。 Rdma-core:`rdma-core-41.0-2`（来自`rdma-core-37.0`） Open MPI：`openmpi40-aws-4.1.4-2`（从 `openmpi40-aws-4.1.1-2`）将 NICE DCV 升级到版本 `2022.1-13300`（从 `2022.0-12760`）。为 `Queues` 启用 `SingleSubnetValidator` 抑制。当节点处于 `COMPLETING` 状态时不替换 `DRAIN` 节点，因为 Epilog 可能仍在运行。错误修复：修复了 Amazon ParallelCluster `ListClusterLogStreams`命令中过滤器参数的验证失败的问题，即当传递的过滤器不正确时。修复了与EfsSettings其他 SharedStorage SharedStorage/参数一起指定`FileSystemId`时无法验证EfsSettings参数/的问题。以前不包括 `FileSystemId`。修复了在配置中更改 SharedStorage 的顺序以及进行其他更改时的集群更新问题。修复`UpdateParallelClusterLambdaRole`了 Amazon ParallelCluster 用于上传日志的 API CloudWatch。修复了在执行任何说明书之前安装程序包时 Cinc 不使用本地 CA 证书捆绑包的问题。修复了在设置 `Build:UpdateOsPackages:Enabled:true` 后使用 `pcluster build-image` 升级 ubuntu 时出现的挂起问题。修复了 YAML 集群配置分析在遇到重复密钥时失败的问题。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2022 年 11 月 2 日
Amazon ParallelCluster 添加了仅限文档的 API 参考。	Amazon ParallelCluster 仅限文档的更新在文档中添加了版本 3 Amazon ParallelCluster API 参考。	2022 年 10 月 27 日
Amazon ParallelCluster 3.2.1 版本已发布	Amazon ParallelCluster 3.2.1 版本已发布。增强功能：改进了逻辑，使主机路由表与不同网卡关联，从而更好地支持具有多个 NIC 的 Amazon EC2 实例。更改：将 NVIDIA 驱动程序升级到版本 470.141.03。将 NVIDIA Fabric Manager 升级到版本 470.141.03。禁用可能对节点性能产生负面影响的 `cron` 作业任务 `man-db` 和 `mlocate`。将 Intel MPI Library 升级到 2021.6.0.602。将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。错误修复：避免集群配置不可用时 `DescribeCluster` 失败。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2022 年 10 月 3 日
Amazon ParallelCluster 3.2.0 版本已发布	Amazon ParallelCluster 3.2.0 版本已发布。增强功能：在 Slurm 中添加了对基于内存的调度的支持。在 Slurm 集群配置中配置计算节点实际内存。添加新的配置参数 Schedul ing/SlurmSettings/EnableMemoryBasedScheduling以在 Slurm 中启用基于内存的调度。添加新的配置参数 Schedulin SchedulableMemoryg ComputeResources/SlurmQueues/以覆盖调度器在计算节点上看到的默认内存值。提高了集群配置更新的灵活性，以便尽可能避免停止和启动整个集群。添加新的配置参数 S ch ed SlurmSettingsulin QueueUpdateStrategyg//以设置在计算节点需要更新和替换配置时使用的首选策略。改进了 Amazon EC2 实例遇到容量不足问题时的可用计算资源失效转移机制。当节点由于容量不足而启动失败时，将计算节点禁用一段可配置的时间。添加对挂载适用于 ONTAP 的现有 FSX 和适用于 O penZFS 文件系统的现有 F SX 的支持。增加了对挂载现有 Amazon Elastic File Systems、FSx for Lustre、适用于 ONTAP 的 FSx 以及适用于 OpenZFS 的 FSx 文件系统的多个实例的支持。创建新文件系统时，增加了对 FSx for Lustre Persistent_2 部署类型的支持。使用 pcluster 配置向导时，提示用户为支持的实例类型启用 EFA。添加了对使用 Slurm 重启计算节点的支持。改进了对 Slurm 电源状态的处理，也考虑节点的手动关闭。在产品 AMI 中安装 NVIDIA GDRCopy 2.3 以启用低延迟 GPU 内存复制。更改：将 EFA 安装程序升级到版本 1.17.2。 EFA 驱动程序：`efa-1.16.0-1` EFA 配置：`efa-config-1.10-1` EFA 配置文件：`efa-profile-1.5-1` Libfabric：`libfabric-aws-1.16.0~amzn2.0-1` RDMA 内核：`rdma-core-41.0-2` Open MPI：`openmpi40-aws-4.1.4-2` 将 NICE DCV 升级到版本 2022.0-12760。将 NVIDIA 驱动程序升级到版本 470.129.06。将 NVIDIA Fabric Manager 升级到版本 470.129.06。将根卷和其他卷中的默认 EBS 卷类型从 gp2 更改为 gp3。对 FSx for Lustre 文件系统所做的更改由以下人员创建： Amazon ParallelCluster 将默认部署类型更改为 `Scratch_2`。将 Lustre 服务器版本更改为 `2.12`。传递现有的 PlacementGroup/`true`时，不需要将`PlacementGroup`/En able d 设置为`Id`。当 `PlacementGroup`/`Enabled` 显式设置为 `false` 时，不允许设置 `PlacementGroup`/`Id`。为 Amazon ParallelCluster创建的所有资源添加标签 `parallelcluster:cluster-name`。添加`lambda:ListTags`和`lambda:UntagResource`，由 Amazon ParallelCluster API 堆栈`ParallelClusterUserRole`用于集群更新。启用配置参数 `HeadNode`/`Imds`/`Secured` 后，将 IPv6 对 `IMDS` 的问权限限制为仅根用户和集群管理员用户。对于自定义 AMI，请使用 AMI 根卷大小，而不是 ParallelCluster默认的 35 GiB。可以在集群配置文件中更改该值。当配置参数 `Scheduling`/`SlurmQueues`/`ComputeResources`/`SpotPrice` 低于所需的最低竞价型请求履行价格时，自动禁用计算实例集。在更新期间添加或删除某个部分时，在更改集中显示 `requested_value` 和 `current_value` 值。禁用深度学习 AMI 中提供的 `aws-ubuntu-eni-helper` 服务，以避免在配置具有多个网卡的实例时与 `configure_nw_interface.sh` 冲突。删除了对 Python 3.6 的支持。在配置具有多个网卡的实例时，将所有网络接口的 MTU 设置为 9001。配置计算节点 FQDN 时，删除结尾圆点。在 `POWERING_DOWN` 中管理静态节点。不替换 `POWER_DOWN` 中的动态节点，因为作业可能仍在运行。只有在更新了集群配置中的 `Scheduling` 参数时，才会在集群更新时重启 `clustermgtd` 和 `slurmctld` 进程守护程序。更新 `slurmctld` 和 `slurmd` `systemd` 服务文件。启用配置参数 `HeadNode`/`Imds`/`Secured` 后，将 IPv6 对 IMDS 的问权限限制为仅根用户和集群管理员用户。设置 Slurm 配置 `AuthInfo=cred_expire=70` 以缩短在节点不可用时重新排队的作业在重启之前必须等待的时间。升级第三方说明书依赖项： apt-7.4.2（从 apt-7.4.0） line-4.5.2（从 line-4.0.1） openssh-2.10.3（从 openssh-2.9.1） pyenv-3.5.1（从 pyenv-3.4.2） selinux-6.0.4（从 selinux-3.1.1） yum-7.4.0（从 yum-6.1.1） yum-epel-4.5.0（从 yum-epel-4.1.2）错误修复：修复构建自定义 AMI 时跳过 Amazon ParallelCluster 验证和测试步骤的默认行为。修复了 `computemgtd` 中的文件句柄泄漏问题。修复了因为 EC2 DescribeInstances 响应中尚不可用而偶尔导致已启动的实例立即终止的争用条件。对于使用 Arm 处理器的实例类型，修复了对 `DisableSimultaneousMultithreading` 参数的支持。修复从先前版本升级时的 Amazon ParallelCluster API 堆栈更新失败。在 `EcrImageDeletionLambdaRole` 中添加了用于 `ListImagePipelineImages` 操作的资源模式。修复 Amazon ParallelCluster API 在创建 FSx for Lustre 文件系统时添加了从亚马逊 S3 导入或导出所需的权限缺失的问题。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2022 年 7 月 27 日
Amazon ParallelCluster 今年迄今为止仅限文档的更新	Amazon ParallelCluster 仅限文档的更新。新章节：最佳实践：预算提醒 V3 最佳实践：将集群移至新的 Amazon ParallelCluster 次要版本或补丁版本 V3 使用亚马逊 S3 V3 使用竞价型实例 V3 Slurm 集群保护模式 V3 Amazon ParallelCluster 资源和标记 V3 亚马逊 CloudWatch 控制面板 V3 与 Amazon L CloudWatch ogs V3 集成弹性织物适配器 V3 Amazon ParallelCluster AMI 定制 V3 使用 On-Demand 容量预留 (ODCR) V3 启动实例 AMI 修补和亚马逊 EC2 实例替换 V3 V3 Amazon ParallelCluster 工作原理使用 KMS 密@@ Amazon 钥 V3 配置共享存储加密在多队列模式集群中运行作业 V3 使用 Amazon ParallelCluster API V3 章节更新：最佳实践：网络性能 V3：添加了使用 Elastic Fabric Adaptor 的最佳实践。 Amazon Amazon ParallelCluster V3 中的身份和访问管理权限：使用 Amazon FSx for L Amazon ParallelCluster ustre 时进行了各种更新并添加了其他 pcluster 用户策略。 Amazon ParallelCluster 疑难解答 V3：各种更新。	2022 年 7 月 6 日
Amazon ParallelCluster 3.1.4 版本已发布	Amazon ParallelCluster 3.1.4 版本已发布。增强功能：为 DirectoryService/PasswordSecretArn 添加了验证功能，如果不存在密钥，则会失败。增加了对启用 JWT 身份验证 Slurm 的支持。更改：将 Slurm 升级到版本 21.08.8-2。借助 JWT 支持构建 Slurm。传递现有的 PlacementGroup/`true`时，不需要将`PlacementGroup`/En able d 设置为`Id`。添加`lambda:TagResource`到 ParallelCluster API 堆栈中`ParallelClusterUserRole`用于创建集群和创建映像。错误修复：修复了使用带 `--filters` 选项的 `export-cluster-logs` 命令时导出集群日志的功能。修复 B Amazon atch Docker 入口点以使用`/home`共享目录来协调 Multi-node-Parallel 作业执行。将 Slurm 不健康的静态节点设置为关闭时重置节点地址，以避免将容量不足的静态节点视为引导失败节点。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2022 年 5 月 16 日
Amazon ParallelCluster 3.1.3 版本已发布	Amazon ParallelCluster 3.1.3 版本已发布。增强功能：当切换到其他用户以及在以其他用户身份执行命令时，例如在 SSH 登录期间，将会执行 SSH 密钥创建并创建主目录。在配置参数 DirectoryService/DomainName 中增加了对 FQDN 和 LDAP 可分辨名称的支持。新验证器现在会检查这两种语法。头节点上部署的新 `update_directory_service_password.sh` 脚本支持手动更新 SSSD 配置中的 Active Directory 密码。密码由 S Amazon ecrets Manager 从集群配置中检索。增加了对在没有默认 VPC 的环境中部署 API 基础架构的支持。更改： C-States 在 x86_64 官方 AMI 和通过`build-image`命令创建的 AMI 中更深层次地禁用，以保证高性能和低延迟。操作系统程序包更新和安全修复。将 Amazon Linux 2 基本映像更改为使用内核 5.10 的 AMI。错误修复：修复了映像构建成功后由于新的 EC2 Image Builder 策略导致构建映像堆栈处于 `DELETE_FAILED` 状态的问题。修复了配置参数 DirectoryService/DomainAddr 在包含多个域地址时转换为 ldap_uri SSSD 属性的问题。有关变更的详细信息，请参阅 aws-parallelcluster `CHANGELOG` 的文件以及 aws-parallelcluster- cookbook 软件包。 GitHub	2022 年 4 月 20 日
Amazon ParallelCluster 3.1.2 版本已发布	Amazon ParallelCluster 3.1.2 版本已发布。更改：将 Slurm 升级到版本 `21.08.6`（从 `21.08.5`）。错误修复：修复了在没有互联网访问权限的子网中部署集群时在计算节点上更新 `/etc/hosts` 文件的问题。修复了计算节点引导，在加入集群之前将等待临时驱动器初始化完成。有关更改的详细信息，请参阅上的 aws-parallel cluster 软件包的`CHANGELOG`文件。 GitHub	2022 年 3 月 2 日
Amazon ParallelCluster 3.1.1 版本已发布	Amazon ParallelCluster 3.1.1 版本已发布。通过与通过 Amazon Directory Service 管理的 Active Directory (AD) 域集成，增加对多用户群集环境的支持。在集群配置文件中增加了对 UseEc2Hostnames 的支持。如果设置为 true，则对计算节点使用 Amazon EC2 默认主机名（例如 ip-1-2-3-4）。增加了对在没有互联网访问权限的子网中创建集群的支持。添加了对每个队列包含多种计算实例类型的支持。在使用 NVIDIA 卡的 ARM 实例上添加了对使用 Slurm 进行 GPU 调度的支持。在 Amazon ParallelCluster CLI 中添加 `cluster-name` (`-n`)、`region` (`-r`)、`image-id` (`-i`) 和`cluster-configuration`/`image-configuration`(`-c`) 的缩写标志。为 FSx for Lustre AutoImportPolicy 参数增加了对 `NEW_CHANGED_DELETED` 选项的支持。将 `parallelcluster:compute-resource-name` 标签添加到了计算节点使用的 EC2 `LaunchTemplates` 资源。改进在集群中创建的安全组，以便在为某些头节点 and/or 队列指定`SecurityGroups`参数时允许来自自定义安全组的入站连接。为 ARM 安装 NVIDIA 驱动程序和 CUDA 库。更改：将 Slurm 升级到版本 `21.08.5`（从 `20.11.8`）。将 Slurm 插件升级到版本 `21.08`（从 `20.11`）。将 NICE DCV 升级到版本 `2021.3-11591`（从 `2021.1-10851`）。将 NVIDIA 驱动程序升级到版本 `470.103.01`（从 `470.57.02`）。将 NVIDIA Fabric Manager 升级到版本 `470.103.01`（从 `470.57.02`）。将 CUDA 升级到版本 `11.4.4`（从 `11.4.0`）。 Intel MPI 更新至 2021 年版更新 4（从 2019 年版更新 8 进行更新）。有关更多信息，请参阅 Intel® MPI Library 2021 更新 4。将 PMIx 升级到版本 `3.2.3`（从 `3.1.5`）。删除了将失败的计算节点转储到 `/home/logs/compute`。计算节点日志文件可在 CloudWatch Amazon EC2 控制台日志中找到。启用潜在抑制 `SlurmQueues` 和 `ComputeResources` 长度验证器。在 Amazon Linux 2 上禁用实例启动时的程序包更新。在构建 Amazon ParallelCluster 自定义映像时禁用 Amazon EC2 ImageBuilder 增强版图像元数据。将 `cloud-init` 数据源显式设置为 EC2。这可节省 Ubuntu 和 CentOS 平台的启动时间。在计算实例集启动模板名称中使用计算资源名称而不是实例类型。将 stderr 和 stdout 重定向到 CLI 日志文件，以防止 pcluster CLI 输出中出现不需要的文本。移动 configure/install 食谱以将调用的食谱与主食谱分开。现有的入口点保持不变，并且向后兼容。在 AMI 构建期间下载 Intel HPC 平台的依赖项，以避免在集群创建期间联系互联网。配置 Slurm 节点时不从计算资源名称中删除 `-`。未安装 NVIDIA 驱动程序时，不在 Slurm 中配置 GPU。修复了 `BatchUserRole` 中的 `ecs:ListContainerInstances` 权限。修复了未指定前缀时的集群日志导出问题，以前导出为 `None` 前缀。修复了集群更新失败时不执行回滚的问题。修复了 `BatchUserRole` 中的 `ecs:ListContainerInstances` 权限。修复了 `HeadNode` 的 `RootVolume` 架构，如果指定了不支持的 `KmsKeyId`，则会引发错误。修复 Amazon FSx 缺少要在控制面板中显示的 CloudWatch 指标。修复了 `EfaSecurityGroupValidator`。以前，在提供自定义安全组并启用 EFA 的情况下，它可能会产生假失败。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的`CHANGELOG`文件。 GitHub	2022 年 2 月 10 日
Amazon ParallelCluster 3.0.3 版本已发布	Amazon ParallelCluster 3.0.3 版本已发布。在 Amazon Linux 2 上禁用 `log4j-cve-2021-44228-hotpatch` 代理 (`Log4jHotPatch`) 以避免潜在的性能降低。有关更多信息，请参阅适用于 Apache Log4j 的 Amazon Linux 热补丁公告。有关变更的详细信息，请参阅 aws-parallelcluster 和 aws-parallelcluster-cookbook 软件包的`CHANGELOG`文件。 GitHub	2022 年 1 月 17 日
Amazon ParallelCluster 3.0.2 版本已发布	Amazon ParallelCluster 3.0.2 版本已发布。将弹性结构适配器安装程序升级到 1.14.1 EFA 配置：`efa-config-1.9-1`（从 `efa-config-1.9`） EFA 配置文件：`efa-profile-1.5-1`（从 `efa-profile-1.5`） EFA 内核模块：`efa-1.14.2`（从 `efa-1.13.0`） RDMA 内核：`rdma-core-37.0`（从 `rdma-core-35`） libfabric：`libfabric-1.13.2`（从 `libfabric-1.13.0`） Open MPI：`openmpi40-aws-4.1.1-2`（无变化）如果实例类型支持，则始终启用 GPUDirect RDMA。GdrSupport配置选项无效。有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster-cook book 和 aws-parallelcluster -node 软件包的`CHANGELOG`文件。 GitHub	2021 年 11 月 5 日
Amazon ParallelCluster 3.0.1 版本已发布	Amazon ParallelCluster 3.0.1 版本已发布。集群配置迁移工具客户现在可以将其集群配置从 Amazon ParallelCluster 版本 2 格式迁移到 YAML-based Amazon ParallelCluster 版本 3 格式。有关更多信息，请参阅 pclust er3-config-converter。可以停止头节点停止计算队列后，可以使用 Amazon EC2 控制台或 st op-instances Amazon CLI 命令停止头节点，然后再重新启动。从`~/.aws/config`文件读取的默认 Amazon 区域对于 pcluster 命令，如果未在配置文件、环境或命令行中指定 Amazon 区域，则使用`~/.aws/config`文件`[default]`部分的`region`设置中指定的默认区域。 Amazon 有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster-cook book 和 aws-parallelcluster -node 软件包的`CHANGELOG`文件。 GitHub	2021 年 10 月 27 日
Amazon ParallelCluster 3.0.0 版本已发布	Amazon ParallelCluster 3.0.0 版本已发布。支持通过 Amazon API Gateway 进行集群管理现在，客户可以使用 Amazon API Gateway 通过 HTTP 端点管理和部署集群。这为脚本化或事件驱动的工作流程开辟了新的可能性。为了与此 API 兼容， Amazon ParallelCluster 命令行界面 (CLI) 也进行了重新设计，并包括一个新的 JSON 输出选项。这项新功能使客户也可以使用 CLI 实现类似的构造块功能。改进了自定义 AMI 的创建现在，客户可以使用 EC2 Image Builder 采用更强大的流程来创建和管理自定义 AMI。自定义 AMI 现在可以通过单独的 Amazon ParallelCluster 配置文件进行管理，也可以在命令行界面中使用 pcluster build-image 命令进行创建。 Amazon ParallelCluster 有关变更的详细信息，请参阅 aws-parallelcluster、aws-parallelcluster-cook book 和 aws-parallelcluster -node 软件包的`CHANGELOG`文件。 GitHub	2021 年 9 月 10 日

PCUI
更改	描述	日期
PCUI 版本 2026.04.0 已发布	PCUI 版本 2026.04.0 已发布重大变化：移除对 <= 3. Amazon ParallelCluster 5.0 版本的支持。功能：添加对通过单个 PCUI 部署管理多个 Amazon ParallelCluster 版本的支持。在`us-gov-east-1`区域中添加对 PCUI 的支持。错误修复：修复了一个问题，以确保集群创建向导中的操作系统选项反映所选 Amazon ParallelCluster 版本支持的操作系统。修复了允许 PCUI 在向导中提供全系列可选实例类型的问题。改进未指定`Version`参数时的 CloudFormation 错误消息。安全性：降低 PCUI Lambda 中路径遍历攻击的风险。修复集群 HeadNode上 SSM SendCommand 调用中的操作系统命令注入漏洞。修复了导致访问令牌泄漏到 CloudWatch 日志中的错误。请求升级到版本 2.33.1（从 2.32.0 开始）。将密码学升级到版本 46.0.7（从 44.0.1 开始）。将 boto3 升级到版本 1.42.91（从 1.24.30 开始）。将 urllib3 升级到版本 2.6.3（从 1.26.20 开始）。将 ecdsa 升级到版本 0.19.2（从 0.18.0 开始）。将证书升级到版本 2026.2.25（从 2024.7.4 起）。将 flask-cors 升级到版本 6.0.2（从 4.0.2 开始）。将 python-jose 升级到版本 3.5.0（从 3.4.0 开始）。在 15.5.10 版本旁边升级（从 14.2.26 起）。将 eslint-config-next 升级到版本 15.5.10（从 14.0.4 起）。将 @ 升级babel/runtime 到版本 7.27.0（从 7.23.5 开始）。将支架扩展版升级到版本 1.1.12（从 1.1.11 开始）。	2026 年 4 月 30 日
PCUI 版本 2025.04.0 已发布	PCUI 版本 2025.04.0 已发布重大变化：删除 PC 版本的默认值。现在，用户必须指定要使用的电脑版本。功能：添加新的堆栈参数 “`AdditionalPoliciesPCAPI`”，除了默认权限外，还可为 ParallelCluster API Lambda 角色添加自定义权限。错误修复：通过使用 PCUI 模板修复私有子网中的 PCUI 部署问题，并返回正确的 URL。修复了无法在 Job 状态选项卡中加载 200 多个作业的问题。（请参阅 https://github.com/aws/aws-parallelcluster-ui/issues/376）。安全性：将 Python 从 3.9 升级到 3.12。将交叉生成从 7.0.3 升级到 7.0.6 以解决漏洞。CVE-2024-21538 将请求从 2.31.0 升级到 2.32.0 以解决。CVE-2024-35195 将 urllib3 从 1.26.18 升级到 1.26.19 以获得地址。CVE-2024-37891 将密码学从 42.0.4 升级到 44.0.1 以解决问题。CWE-1395 将证书从 2023.7.22 升级到 2024.7.4 到地址。CVE-2024-39689 将 jinja2 从 3.1.3 升级到 3.1.6 以解决和。CVE-2024-56201 CVE-2024-56326 将 serverless_wsgi.py 升级到 3.0.5 版。将 Werkzeug 从 2.3.8 升级到 3.0.6 版本以解决和。CVE-2024-34069 CVE-2024-49766 CVE-2024-49767 将 Axios 从 1.6.7 升级到 1.8.2 版本即可解决。CVE-2024-39338 Next.js 从 14.1.1 升级到 14.2.25 版本以解决CVE-2024-51479和。CVE-2024-46982 CVE-2025-29927 将 idna 从 3.4 升级到 3.7 版本以解决问题CVE-2024-3651。将 nanoid 从 3.3.7 升级到 3.3.8 版本以解决问题。CVE-2024-55565 将 python-jose 从 3.3.0 升级到 3.4.0 版本以解决问题。CVE-2022-29217	2025 年 4 月 16 日
PCUI 版本 2024.11.0 已发布	PCUI 版本 2024.11.0 已发布错误修复：明确设置 ECR 私有存储库的策略，以防止在影响到 Lambda 函数的堆栈更新时删除策略。该策略包括 Lambda 函数获取代码所需的权限。	2024 年 11 月 22 日
PCUI 版本 2024.10.0 已发布	PCUI 版本 2024.10.0 已发布更改：添加对 Amazon ParallelCluster 3.11.1 的支持。在向导中添加对 On-Demand 容量预留和容量块的支持。将 g6、m7 和 p5 系列添加到向导中支持的实例类型列表中。添加新的堆栈可选参数，为 PCUI 和 Cognito 配置自定义域。错误修复：修复了破坏自定义域名设置的错误。安全性： Flask-CORS 从 3.0.10 升级到 4.0.2 以修复漏洞。 CVE-2024-6221 将 lint-staged 从 13.0.3 升级到 15.2.5 以解决漏洞。 CVE-2024-4068 完整更改日志	2024 年 10 月 22 日
发布了 PCUI 版本 2024.05.0	发布了 PCUI 版本 2024.05.0。错误修复：修复了用户打开“作业状态”面板时前端屏蔽 UI 的错误。完整更改日志	2024 年 5 月 14 日
发布了 PCUI 版本 2024.04.0	发布了 PCUI 版本 2024.04.0。功能：增加了对 Amazon ParallelCluster 版本 3.9.1 的支持完整更改日志	2024 年 4 月 17 日
发布了 PCUI 版本 2024.03.0	发布了 PCUI 版本 2024.03.0。功能：增加了对 Amazon ParallelCluster 版本 3.9.0 的支持增加了对 Ubuntu 22.04 和 Red Hat Enterprise Linux 9 的支持已弃用 Ubuntu 18.04 错误修复修复了在使用多个集群时导致某些集群不显示的问题有关更改的详细信息，请参阅上的`aws-parallelcluster-ui`软件包`CHANGELOG`文件 GitHub。	2024 年 3 月 12 日
发布了 PCUI 版本 2024.02.0	发布了 PCUI 版本 2024.02.0 更改：将 Lambda 运行时环境更新为 Python v3.9 有关更改的详细信息，请参阅上的`aws-parallelcluster-ui`软件包`CHANGELOG`文件 GitHub。	2024 年 2 月 8 日
发布了 PCUI 版本 2023.12.0	发布了 PCUI 版本 2023.12.0。功能：增加了对使用私有联网部署 PCUI 的支持。增加了选择对 PCUI 和 PCAPI 基础设施创建的每个 IAM 角色应用权限边界的可能性增加了选择对 PCUI 和 PCAPI 基础设施创建的每个 IAM 角色和策略应用前缀的可能性。增加了对 ParallelCluster 版本 3.8.0 的支持，向导中没有功能对等。有关更改的详细信息，请参阅上的 aws-parallelcluster-ui 软件包的`CHANGELOG`文件。 GitHub	2023 年 12 月 21 日
发布了 PCUI 版本 2023.10.0	发布了 PCUI 版本 2023.10.0。功能：增加了对 ParallelCluster 3.7.2 的支持，向导中的功能对等仅限于 FSx 文件缓存，并且与多种实例类型具有基于内存的调度兼容性。错误修复：修复了当 PCUI 没有与 Cost Explorer 交互的权限时导致 UI 错误的问题。改进通过将访问令牌 TTL 从 10 分钟缩短为 5 分钟，提高了安全性。有关更改的详细信息，请参阅上的 aws-parallelcluster-ui 软件包的`CHANGELOG`文件。 GitHub	2023 年 10 月 20 日
发布了 PCUI 版本 2023.06.0	发布了 PCUI 版本 2023.06.0。更改：已将默认 Amazon ParallelCluster API 版本升级到 3.6.0。错误修复：修复了 Amazon GovCloud (US-West) 区域部署中断的问题。现在，在创建开始后，拆分面板可以正确加载集群详细信息。备注：成本监控功能不在 Amazon GovCloud （美国）地区提供。有关更改的详细信息，请参阅上的 aws-parallelcluster-ui 软件包的`CHANGELOG`文件。 GitHub	2023 年 6 月 7 日
发布了 PCUI 版本 2023.05.0	发布了 PCUI 版本 2023.05.0。增强功能：从 3.6.0 Amazon ParallelCluster 版本开始，添加对 RHEL 8 的支持。添加了集群成本监控功能。从 3.6.0 Amazon ParallelCluster 版开始，增加队列和计算资源配额。更改：改进了集群创建向导的用户界面。提高了 PCUI 部署的速度。改进了添加新用户的界面。队列默认位于头节点子网中。错误修复：集群创建完成后，切换到正确的区域。修复了“编辑集群”功能中的加载指示器显示问题。修复移除 EBS SnapshotId 属性时创建集群的问题。有关更改的详细信息，请参阅上的 aws-parallelcluster-ui 软件包的`CHANGELOG`文件。 GitHub	2023 年 5 月 16 日
发布了 PCUI 版本 2023.04.0	发布了 PCUI 版本 2023.04.0。增强功能：重新设计了集群创建向导。重新设计了集群日志页面。为共享存储添加了自定义名称设置。在向集群添加存储时添加了多个存储选项。增加了对 Amazon EFS 和 FSx for Lustre 的 `DeletionPolicy` 支持。在集群配置中添加了 `ImdsSupport` 设置。增加了对 C7 实例类型的支持。添加了教程 “恢复到以前的 S Amazon ystems Manager 文档版本”。更改：集群配置 YAML 的大小最大可达到 1MB。用户不会因为使用 Boto3 IAM 临时凭证进行授权而注销。选择 HPC 实例时禁用了多线程选项。删除了集群创建页面上的禁用回滚功能。在提供必需的信息之前，用户无法使用 PCUI。最多可以添加 10 个队列。在 PCUI 安装过程中不覆盖 `SSM-SessionManagerRunShell` 文档。错误修复：修复了损坏的重置密码链接。修复了因 `EcrPrivateRepository` 不为空而导致 `delete stack` 损坏的问题修复了“多用户管理属性”部分中“生成 SSH 密钥”复选框的初始化问题。修复了因作业具有未定义属性而导致崩溃的问题。修复了 SCRATCH FSx 的设置。修复了“启动和停止实例”按钮，单击一次后仍处于启用状态。有关更改的详细信息，请参阅上的 aws-parallelcluster-ui 软件包的`CHANGELOG`文件。 GitHub	2023 年 4 月 17 日

Terraform
更改	描述	日期
1.1.0 的 Terraform Provider 已发布 Amazon ParallelCluster	错误修复：修复了使用 ParallelCluster API 3.11.x 部署带有登录节点的集群时导致 terraform-apply 失败的问题。	2024 年 12 月 6 日
1.1.0 版的 Terraform 模块已发布 Amazon ParallelCluster	更改：在所有模块示例中使用 Amazon ParallelCluster Terraform Provider 1.x。在所有带有堆栈名称 ParallelCluster的示例中使用 ParallelCluster API 3.11.1 API。在所有模块示例中部署登录节点。	2024 年 12 月 6 日
1.0.0 的 Terraform Provider 已发布 Amazon ParallelCluster	功能：完整更改日志	2024 年 6 月 26 日
1.0.0 版的 Terraform 模块已发布 Amazon ParallelCluster	功能：完整更改日志	2024 年 6 月 26 日

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

支持的 Amazon Web Services 区域