发行说明和文档历史记录 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

发行说明和文档历史记录

下表描述了 Amazon ParallelCluster 用户指南 的主要更新和新功能。我们还经常更新文档来处理发送给我们的反馈意见。

变更说明日期

Amazon ParallelCluster 3.9.2 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.9.2 已发布

功能:

  • 将 Slurm 升级到 23.11.7(从 23.11.4 起)。

  • 有关更多详细信息,请参阅CHANGELOG3.9.2上的 GitHub。

2024 年 5 月 28 日

Amazon ParallelCluster 用户界面版本 2024.05.0 已发布

Amazon ParallelCluster 用户界面版本 2024.05.0 已发布。

错误修复:

  • 修复了用户打开 Job Status 面板时前端屏蔽界面的错误。

  • 完整更新日志

2024 年 5 月 14 日

Amazon ParallelCluster 用户界面版本 2024.04.0 已发布

Amazon ParallelCluster 用户界面版本 2024.04.0 已发布。

功能:

2024 年 4 月 17 日

Amazon ParallelCluster 3.9.1 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.9.1 已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

错误修复

  • 在更新群集操作中卸载文件系统时,移除对共享存储 mountdir 的递归删除。

2024 年 4 月 11 日

Amazon ParallelCluster 3.9.1 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.9.1 已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

错误修复

  • 在更新群集操作中卸载文件系统时,移除对共享存储 mountdir 的递归删除。

2024 年 4 月 11 日

Amazon ParallelCluster 用户界面版本 2024.03.0 已发布

Amazon ParallelCluster 用户界面版本 2024.03.0 已发布。

功能:

  • 增加了对 Amazon ParallelCluster 版本 3.9.0 的支持

  • 增加了对 Ubuntu 22.04 和红帽企业 Linux 9 的支持

  • 已弃用 Ubuntu 18.04

错误修复

  • 修复了使用多个集群时导致某些集群不显示的问题

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2024 年 3 月 12 日

Amazon ParallelCluster 3.9.0 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.9.0 已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

增强功能:

  • 添加配置参数DeploymentSettings/DefaultUserHome以允许用户将默认用户的主目录移到/local/home而不是/home(默认)。

  • 无需停止计算队列即可更新MinCountMaxCountQueueComputeResource配置参数。现在可以通过设置为 “终止” Scheduling/SlurmSettings/QueueUpdateStrategy 来更新它们。 Amazon ParallelCluster 将仅终止在通过群集更新调整群集容量时移除的节点。

  • 允许在 FileCache 不替换计算和登录队列的情况下更新 Efs FsxLustre FsxOntap、、 FsxOpenZfs 和类型的外部共享存储。

  • 添加对 RHEL9 的支持。

  • 添加对通过build-image流程CustomAmi创建的 Rocky Linux 9 的支持。目前还没有官方的 Amazon ParallelCluster Rocky9 Linux AMI 可用。

  • CommunicationParameters从 Slurm “自定义设置” 拒绝列表中删除。

  • 添加DeploymentSettings/DisableSudoAccessForDefaultUser参数以在支持的操作系统中禁用默认用户的 sudo 访问权限。

  • 对适用于 Lustre 文件系统的 FSx 的更改 ParallelCluster创建者:将 Lustre 服务器版本更改为 2.15.

  • 通过['cluster']['nvidia']['kernel_open']食谱节点属性,在构建 AMI 时,增加了在开源 Nvidia 驱动程序和闭源 Nvidia 驱动程序之间进行选择的可能性。

  • * 添加 clustermgtd 配置选项ec2_instance_missing_max_count以允许可配置的重试次数,以实现最终 EC2 描述实例与运行实例的一致性。

更改

  • 升级Slurm到 23.11.4(从 23.02.7 开始)。

  • 将 NVIDIA 驱动程序升级到版本 535.154.05。

  • 在 pcluster CLI 中添加对 Python 3.11、3.12 的支持,以及。 aws-parallelcluster-batch-cli

  • 使用 EC2 DescribeInstances 响应NetworkCardIndex列表中的网卡索引构建网络接口,而不是遍历MaximumNetworkCards范围。

  • 使用实例类型 P3、G3、P2 和 G2 时,集群创建失败,因为它们的 GPU 架构与 3.8.0 版本中引入的开源 Nvidia 驱动程序 (OpenRM) 不兼容。

  • 升级第三方食谱依赖项:nfs-5.1.2(从 nfs-5.0.0 开始)

  • 将 EFA 安装程序升级到 1.30.0.

    • Efa-driver:efa-2.6.0-1

    • EFA 配置:efa-config-1.15-1

    • EFA 简介:efa-profile-1.6-1

    • libfabric-AWS:libfabric-aws-1.19.0

    • RDMA 内核:rdma-core-46.0-1

    • 打开 MPI:和 openmpi40-aws-4.1.6-2 openmpi50-aws-5.0.0-11

  • 将 NICE DCV 升级到版本 2023.1-16388.

    • server:2023.1.16388-1

    • xdcv:2023.1.565-1

    • gl:2023.1.1047-1

    • web_viewer:2023.1.16388-1

错误修复

  • 修复了从登录节点以 Active Directory 用户身份提交任务时任务失败的问题。该问题是由头节点上与外部 Active Directory 集成的配置不完整引起的。

  • 重构在 CloudFormation 模板 parallelclusser-policies.yaml 中定义的 IAM 策略,以防止 ParallelCluster 因策略超过 IAM 限制而导致 API 部署失败。

  • 修复了当头节点写入密钥所需的时间超过预期时间时,登录节点无法启动的问题。

有关更改的详细信息,请参阅上的 aws-parallelcluster-ui 软件包CHANGELOG文件。 GitHub

2024 年 3 月 5 日

Amazon ParallelCluster 用户界面版本 2024.02.0 已发布

Amazon ParallelCluster 用户界面版本 2024.02.0 已发布

更改:

  • 将 Lambda 运行时环境更新为 Python v3.9

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2024 年 2 月 8 日

Amazon ParallelCluster 用户界面版本 2023.12.0 已发布

Amazon ParallelCluster 用户界面版本 2023.12.0 已发布。

功能:

  • 增加了对使用私有网络部署 PCUI 的支持。

  • 增加了可选地将权限边界应用于 PCUI 和 PCAPI 基础设施创建的每个 IAM 角色的可能性

  • 增加了可选地为由 PCUI 和 PCAPI 基础设施创建的每个 IAM 角色和策略应用前缀的可能性。

  • 添加了对 ParallelCluster 版本 3.8.0 的支持,向导中没有功能对等。

有关更改的详细信息,请参阅上的 aws-parallelcluster-ui 软件包CHANGELOG文件。 GitHub

2023 年 12 月 21 日

Amazon ParallelCluster 3.8.0 版本已发布

Amazon ParallelCluster 3.8.0 版本已发布。

增强功能:

  • 添加对适用于 ML 的 EC2 容量块的支持。

  • 添加对通过build-image流程CustomAmi创建的 Rocky Linux 8 的支持。目前还没有官方的 Amazon ParallelCluster Rocky8 Linux AMI 可用。

  • 添加Scheduling/ScalingStrategy参数以控制启动 Slurm 计算节点的 EC2 实例时要使用的集群扩展策略。可能的值为all-or-nothinggreedy-all-or-nothingbest-effort、,且all-or-nothing为默认值。

  • 添加HeadNode/SharedStorageType参数以使用 EFS 存储,而不是从头节点根卷导出 NFS 来存储集群内共享文件系统资源:Intel ParallelCluster、Slurm 和数据。/home此增强功能减少了头节点网络的负载。

  • 允许通过配置文件SharedStorage部分/home作为 EFS 或 FSx 外部共享存储进行挂载。

  • 添加新参数SlurmSettings/MungeKeySecretArn以允许使用来自 Secrets Manager 的外部用户定义的 MUNGE Amazon 密钥。

  • 添加Monitoring/Alarms/Enabled参数以切换集群的 Amazon CloudWatch 警报。

  • 添加头节点警报以监控 EC2 运行状况检查、CPU 利用率和头节点的整体状态,并将其添加到使用集群创建的 CloudWatch 控制面板中。

  • 将 as 用于托管 FSx for Lu PERSISTENT_2 stre 时,添加DeploymentType对数据存储库关联的支持。

  • 添加Scheduling/SlurmSettings/Database/DatabaseName参数以允许用户为数据库服务器上用于 Slurm 记账的数据库指定自定义名称。

  • 在计算资源CapacityReservationTarget/CapacityReservationIdInstanceType进行配置时,请创建一个可选的配置参数。

  • 增加了为 Amazon ParallelCluster API 创建的 IAM 角色和策略指定前缀的可能性。

  • 增加了为由 Amazon ParallelCluster API 创建的 IAM 角色和策略指定要应用的权限边界的可能性。

更改

  • 将 Slurm 升级到 23.02.7(从 23.02.6 开始)。

  • 将 NVIDIA 驱动程序升级到版本 535.129.03。

  • 将 CUDA 工具包升级到版本 12.2.2。

  • 使用开源 NVIDIA GPU 驱动程序 (OpenRM) 作为 Linux 的 NVIDIA 内核模块,而不是 NVIDIA 闭源模

  • 移除 Slurm 恢复程序中对all_or_nothing_batch配置参数的支持,转而使用新的Scheduling/ScalingStrategy集群配置。

  • 将集群警报命名约定更改为 “[集群名称]-[组件名称]-[指标]”。

  • 将 ADC 区域中根卷和其他卷的默认 EBS 卷类型从 gp2 更改为 gp3。

  • API 的可选权限边界现已应用于 Amazon ParallelCluster API 基础设施创建的每个 IAM 角色。

    • 将 EFA 安装程序升级到 1.29.1

    • Efa-driver:efa-2.6.0-1

    • EFA 配置:efa-config-1.15-1

    • EFA 简介:efa-profile-1.5-1

    • libfabric-AWS:libfabric-aws-1.19.0-1

    • RDMA 内核:rdma-core-46.0-1

    • Open MPI:openmpi40-aws-4.1.6-1

  • 在所有支持的操作系统中将 gdrCopy 升级到 2.4 版,但使用 2.3.1 版本的 Centos 7 除外。

  • 升级aws-cfn-bootstrap到 2.0-28 版本。

  • 在中添加对 Python 3.10 的 aws-parallelcluster-batch-cli支持。

错误修复

  • 修复修改计算资源中声明的实例类型列表时,集群更新回滚后扩展配置不一致的问题。

  • 修复通过集群配置文件在与外部 LDAP 服务器集成的集群中切换没有 root 权限的用户时会生成用户 SSH 密钥的问题。

  • 修复了设置时禁用 Slurm 省电模式的问题。ScaledownIdletime = -1

  • 修复 Slurm Accounting update_slurm_database_password.sh 脚本中指向 Slurm 安装目录的硬编码路径。

2023 年 12 月 19 日

Amazon ParallelCluster 3.7.2 版本已发布

Amazon ParallelCluster 3.7.2 版本已发布。

更改:

  • 将 Slurm 升级到 23.02.6。

2023 年 10 月 25 日

Amazon ParallelCluster 用户界面版本 2023.10.0 已发布

Amazon ParallelCluster 用户界面版本 2023.10.0 已发布。

功能:

  • 增加了对 ParallelCluster 3.7.2 的支持,向导中的功能对等仅限于 FSx 文件缓存,并且与多种实例类型具有基于内存的调度兼容性。

错误修复:

  • 修复了 PCUI 无权与 Cost Explorer 交互时导致界面错误的问题。

改进

  • 通过将访问令牌 TTL 从 10 分钟缩短到 5 分钟,提高了安全性。

有关更改的详细信息,请参阅上的 aws-parallelcluster-ui 软件包CHANGELOG文件。 GitHub

2023 年 10 月 20 日

Amazon ParallelCluster 3.7.1 版本已发布

Amazon ParallelCluster 3.7.1 版本已发布。

更改:

  • 将 Slurm 升级到 23.02.5(从 23.02.4 开始)。

    • 将 Pmix 升级到 4.2.6(从 3.2.3 开始)。

    • 将 libjwt 升级到 1.15.3(从 1.12.0 开始)。

  • 将 EFA 安装程序升级到1.26.1,修复 P5 中的 RDMA 写入数据问题。

    • EFA 司机:。efa-2.5.0-1

    • EFA 配置:。efa-config-1.15-1

    • EFA 简介:。efa-profile-1.5-1

    • libfabric-aws:。libfabric-aws-1.18.2-1

    • erdma-core:。rdma-core-46.0-1

    • 打开 MPI:openmpi40-aws-4.1.5-4.

2023 年 9 月 22 日

Amazon ParallelCluster 3.7.0 版本已发布

Amazon ParallelCluster 3.7.0 版本已发布。

增强功能:

  • Support 使用配置 YAML 文件在计算资源中 Amazon ParallelCluster 配置静态和动态节点优先级。

  • 添加了对 Ubuntu 22 的支持。默认情况下不支持 RSA 密钥。

  • 添加了队列配置设置 JobExclusiveAllocation,用于在任何给定时间在分区中以独占模式将节点分配给单个作业。

  • 允许在创建集群和更新集群时覆盖aws-parallelcluster-node软件包。对于头节点,这适用于集群更新。仅用于开发目的。

  • 避免在计算节点上启动 NFS 服务器。

  • 添加了对登录节点的支持。

  • 当为 Slurm 计算资源指定了多种实例类型时,允许进行基于内存的调度。

  • 添加了支持,允许将现有 Amazon 文件缓存作为共享存储进行挂载。

更改:

  • 默认为 Slurm 动态节点分配 1000 的优先级(权重)。这样,Slurm 便可以将空闲静态节点设置为优先于空闲动态节点。

  • 使aws-parallelcluster-node守护程序仅处理 Amazon ParallelCluster 托管Slurm分区。

  • EFS-utils 监视器轮询间隔增加到 10 秒。当 EncryptionInTransit 设置为 true 时(这是导致监视器运行的唯一条件),此更改适用。

  • 将 EFA 安装程序升级到 1.25.1

    • Efa-driver:efa-2.5.0-1(从 efa-2.1.1g

    • Efa-config:efa-config-1.15-1(从 efa-config-1.13-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.18.1-0(从 libfabric-aws-1.17.1-1

    • Rdma-core:rdma-core-46.0-1(从 rdma-core-43.0-1

    • Open MPI:openmpi40-aws-4.1.5-4(从 openmpi40-aws-4.1.5-1

  • 将 Slurm 升级到版本 23.02.4。

  • 将 Imds/ 的默认值ImdsSupport 从 v1.0 更改为 v2.0。

  • 弃用 Ubuntu 18。

  • 将默认根卷大小更新为 40 GB,以补偿对 Centos 7 的限制。

  • 限制头节点内文件 /tmp/wait_condition_handle.txt 的权限,只有根用户才能读取。

  • 创建一个 Slurm 分区节点列表映射 JSON 文件,供节点程序包进程守护程序用来识别 PC 托管的 Slurm 分区和节点列表。

  • 将 NVIDIA 驱动程序升级到版本 535.54.03。

  • 将 CUDA 库升级到版本 12.2.0。

  • 将 NVIDIA 结构管理器升级到 nvidia-fabricmanager-535

  • 将 ARM PL 升级到版本 23.04.1,仅适用于 Ubuntu 22.04。

  • 将 NICE DCV 升级到版本 2023.0-15487

    • Server:2023.0.15487-1

    • xdcv:2023.0.551-1

    • gl:2023.0.1039-1

    • web_viewer:2023.0.15487-1

错误修复:

  • ScaledownIdletime 值添加验证功能,以防止设置的值低于 -1。

  • 修复了在启用 DCV 的 GPU 实例上使用 Ubuntu 深度学习 AMI 创建集群失败的问题。

  • 修复了使用创建 ParallelCluster CloudFormation 自定义资源提供商时导致创建悬而未决的 IAM 策略的问题 CustomLambdaRole。

  • 修复了使用等于 TrueSlurmSettings/Dns/UseEc2Hostnames 时导致具有多个网络接口的实例上的计算节点 DNS 名称不一致的问题

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2023 年 8 月 30 日

仅文档发布

Amazon ParallelCluster 第 3 版特定用户指南已发布。

仅文档发布:

  • Amazon ParallelCluster 版本 3 有自己的单独用户指南。

2023 年 7 月 17 日

Amazon ParallelCluster 版本 3.6.1 已发布

Amazon ParallelCluster 3.6.1 版本已发布。

更改:

  • 如果将计算节点添加到多个 Slurm 分区,请避免复制 clustermgtd 看到的节点。

错误修复:

  • 删除根卷设备名称的硬编码(/dev/sda1/dev/xvda),并从 create-cluster 过程中使用的 AMI 中进行检索。

  • 修复使用ElasticIp设置为的 CloudFormation 自定义资源时集群创建失败的问题True

  • 修复使用包含大型配置文件的 Amazon CloudFormation 自定义资源时集群创建和更新失败的问题。

  • 修复了无法在 Ubuntu 上禁用 ptrace 保护并且不允许在 libfabric 中进行跨内存附加 (CMA) 的问题。

  • 修复了使用多个实例类型且未返回任何实例时的快速容量不足故障转移逻辑。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2023 年 7 月 5 日

Amazon ParallelCluster 用户界面版本 2023.06.0 已发布

Amazon ParallelCluster 用户界面版本 2023.06.0 已发布。

更改:

  • 已将默认 Amazon ParallelCluster API 版本升级到 3.6.0。

错误修复:

  • 修复了 Amazon GovCloud (美国西部)区域部署中断的问题。

  • 现在,在创建开始后,拆分面板可以正确加载集群详细信息。

注意:

  • 成本监控功能在中不可用 Amazon GovCloud (US) Regions。

有关更改的详细信息,请参阅上的 aws-parallelcluster-ui 软件包CHANGELOG文件。 GitHub

2023 年 6 月 7 日

Amazon ParallelCluster 3.6.0 版本已发布

Amazon ParallelCluster 3.6.0 版本已发布。

文档:

增强功能:

  • 添加了对 RHEL8 的支持。

  • 添加用于创建和管理集群的Amazon CloudFormation 自定义资源 CloudFormation。

  • 在配置 YAML Slurm文件中添加对自定义集群 Amazon ParallelCluster 配置的支持。

  • 构建支持 LUA 的 Slurm。

  • 将每个集群的最大队列数限制从 10 增加到 50。每个队列最多可以有 50 个计算资源。每个集群最多可以有 50 个计算资源。

  • 添加了支持,允许为 OnNodeStartOnNodeConfiguredOnNodeUpdated 参数中配置的事件指定一系列多个自定义操作脚本

  • 添加了新的配置部分 HealthChecks/Gpu,用于在运行作业之前在计算节点上应用 GPU 运行状况检查。

  • SlurmQueuesSlurmQueues/ComputeResources 配置中添加了对 Tags 的支持。

  • Monitoring 配置中添加了对 DetailedMonitoring 的支持。

  • 在 Amazon ParallelCluster CloudWatch 仪表板中添加mem_used_percent头节点内存和根卷磁盘利用率跟踪disk_used_percent指标,并设置警报以监控这些指标。

  • 对 Amazon ParallelCluster 托管的 日志添加了日志轮换支持。

  • CloudWatch 控制面板中跟踪常见的计算节点错误和动态节点最长空闲时间。

  • 在创建 SSL 套接字时,强制 DCV Authenticator Server 至少使用 TLS-1.2 协议。

  • 在除 aarch64 centos7alinux2 之外的所有支持的操作系统上安装 NVIDIA Data Center GPU Manager (DCGM) 程序包。

  • 默认加载内核模块 nvidia-uvm,为 CUDA 驱动程序提供统一虚拟内存 (UVM) 功能。

  • 安装 NVIDIA 持久性进程守护程序作为一项系统服务。

更改:

  • 将 Slurm 升级到版本 23.02.2(从版本 22.05.8)。

  • 将 munge 升级到版本 0.5.15(从版本 0.5.14)。

  • 将 Slurm TreeWidth 设置为 30。

  • 将 Slurm prologepilog 配置分别设置为目标目录 /opt/slurm/etc/scripts/prolog.d//opt/slurm/etc/scripts/epilog.d/

  • 将 Slurm BatchStartTimeout 设置为最长 3 分钟,以便在计算节点注册期间运行 Prolog 脚本。

  • 将 CloudWatch 日志RetentionInDays的默认值从 14 天增加到 180 天。

  • 将 EFA 安装程序升级到 1.22.1

    • Dkms:2.8.3-2

    • Efa-driver:efa-2.1.1g(无变化)

    • Efa-config:efa-config-1.13-1(无变化)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.17.1-1(从 libfabric-aws-1.17.0-1

    • Rdma-core:rdma-core-43.0-1(无变化)

    • Open MPI:openmpi40-aws-4.1.5-1(无变化)

  • 在 Amazon Linux 2 上将 Lustre 客户端版本升级到 2.12。Lustre 客户端 2.12 已经安装在 Ubuntu 20.04、18.04 和 CentOS >= 7.7 上。

  • 在 CentOS 7.6 上将 Lustre 客户端版本升级到 2.10.8

  • 将 NVIDIA 驱动程序升级到版本 470.182.03(从版本 470.141.03)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.182.03(从版本 470.141.03)。

  • 将 NVIDIA CUDA Toolkit 升级到版本 11.8.0(从版本 11.7.1)。

  • 将 NVIDIA CUDA 示例升级到版本 11.8.0

  • 将 Intel MPI Library 升级到 2021 年版更新 9(从 2021 年版更新 6)。有关更多信息,请参阅 Intel® MPI Library 2019 更新 9

  • 将 NICE DCV 升级到版本 2023.0-15022(从版本 2022.2-14521)。

    • server:2023.0.15022-1(从版本 2022.2-14521-1)。

    • xdcv:2023.0.547-1(从版本 2022.2.519-1)。

    • gl:2023.0.1027-1(从版本 2022.2.1012-1)。

    • web_viewer:2023.0.15022-1(从版本 2022.2.14521-1)。

  • aws-cfn-bootstrap 升级到版本 2.0-24

  • 升级 CodeBuild 环境在为集 Amazon Batch 群构建容器镜像时使用的镜像:

    • aws/codebuild/amazonlinux2-x86_64-standard:4.0(从 aws/codebuild/amazonlinux2-x86_64-standard:3.0)。

    • aws/codebuild/amazonlinux2-aarch64-standard:2.0(从 aws/codebuild/amazonlinux2-aarch64-standard:1.0)。

错误修复:

  • 修复了 Amazon EFS 和 Amazon FSx 网络安全组验证器以避免误报错。

  • 修复了 Image Builder 在 build-image 操作期间创建的资源缺少标记的问题。

  • 修复了 MaxCount 的更新策略,使其始终对 MaxCount 属性进行数值比较。

  • 修复了具有多个网卡的计算节点实例上的 IP 一致性问题。

  • 修复了在执行队列参数更新后 Slurm 会计配置未更新时 slurm_parallelcluster_slurmdbd.confStoragePass 的替换问题。

  • 修复了使用现有 EFS 文件系统创建集群时导致创建虚安全组的问题。

  • 修复了重启 cfn-hup 进程守护程序时导致其失败的问题。

  • 将带有 INVALID_REG 标记的动态节点视为 Slurm 保护模式的引导失败。node_replacement_timeout 之后 Slurm 注册失败的静态节点已被视为引导失败。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2023 年 5 月 22 日

Amazon ParallelCluster 用户界面版本 2023.05.0 已发布

Amazon ParallelCluster 用户界面版本 2023.05.0 已发布。

增强功能:

  • 从 3.6.0 Amazon ParallelCluster 版本开始,添加对 RHEL 8 的支持。

  • 添加了集群成本监控功能。

  • 从 3.6.0 Amazon ParallelCluster 版开始,增加队列和计算资源配额。

更改:

  • 改进了集群创建向导的用户界面。

  • 提高了 Amazon ParallelCluster UI 部署的速度。

  • 改进了添加新用户的界面。

  • 队列默认位于头节点子网中。

错误修复:

  • 集群创建完成后,切换到正确的区域。

  • 修复了“编辑集群”功能中的加载指示器显示问题。

  • 修复移除 EBS SnapshotId 属性时创建集群的问题。

有关更改的详细信息,请参阅上的 aws-parallelcluster-ui 软件包CHANGELOG文件。 GitHub

2023 年 5 月 16 日

Amazon ParallelCluster 用户界面版本 2023.04.0 已发布

Amazon ParallelCluster 用户界面版本 2023.04.0 已发布。

增强功能:

  • 重新设计了集群创建向导。

  • 重新设计了集群日志页面。

  • 为共享存储添加了自定义名称设置。

  • 在向集群添加存储时添加了多个存储选项。

  • 添加了对 Amazon EFS 和 FSx for Lustre 的 DeletionPolicy 支持。

  • 在集群配置中添加了 ImdsSupport 设置。

  • 添加了对 C7 实例类型的支持。

  • 添加了教程恢复到以前的 Amazon Systems Manager 文档版本

更改:

  • 集群配置 YAML 的大小最大可达到 1MB。

  • 用户不会因为使用 Boto3 IAM 临时凭证进行授权而注销。

  • 选择 HPC 实例时禁用了多线程选项。

  • 删除了集群创建页面上的禁用回滚功能。

  • 在提供所需信息之前,用户将无法使用用户 Amazon ParallelCluster 界面。

  • 最多可以添加 10 个队列。

  • 在 Amazon ParallelCluster UI 安装过程中不覆盖 SSM-SessionManagerRunShell 文档。

错误修复:

  • 修复了损坏的重置密码链接。

  • 修复了因 EcrPrivateRepository 不为空而导致 delete stack 损坏的问题

  • 修复了“多用户管理属性”部分中“生成 SSH 密钥”复选框的初始化问题。

  • 修复了因作业具有未定义属性而导致崩溃的问题。

  • 修复了 SCRATCH FSx 的设置。

  • 修复了“启动和停止实例”按钮,单击一次后仍处于启用状态。

有关更改的详细信息,请参阅上的 aws-parallelcluster-ui 软件包CHANGELOG文件。 GitHub

2023 年 4 月 17 日

Amazon ParallelCluster 3.5.1 版本已发布

Amazon ParallelCluster 3.5.1 版本已发布。

增强功能:

更改:

  • 将 EFA 安装程序升级到 1.22.0

    • Efa-driver:efa-2.1.1g(从 efa-2.1.1-1

    • Efa-config:efa-config-1.13-1(从 efa-config-1.12-1)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.17.0-1(从 libfabric-aws-1.16.1amzn3.0-1

    • Rdma-core:rdma-core-43.0-1(无变化)

    • Open MPI:openmpi40-aws-4.1.5-1(从 openmpi40-aws-4.1.4-3

    将 NICE DCV 升级到版本 2022.2-14521

    • server:2022.2.14521-1

    • xdcv:2022.2.519-1

    • gl:2022.2.1012-1

    • web_viewer:2022.2.14521-1

错误修复:

  • 修复了在集群更新过程中删除共享 Amazon EBS 卷时因 MountDir/etc/exports 之间的模式匹配而导致的潜在节点启动失败问题。

  • 修复了每次 clustermgtd 迭代时 compute_console_output 日志文件被截断的问题。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2023 年 3 月 29 日

Amazon ParallelCluster 3.5.0 版本已发布

Amazon ParallelCluster 3.5.0 版本已发布。

增强功能:

  • 使用 Amazon ParallelCluster UI 访问和管理集群。

  • 在 CloudFormation 模板中添加版本化 Amazon ParallelCluster 策略,供您在工作负载中引用。

  • 添加可与自己的代码一起使用的 Amazon ParallelCluster Python 库。

  • 在计算节点引导失败时向 Amaz CloudWatch on 添加计算节点控制台输出的日志记录。

  • 集群创建失败时向 describe-cluster 输出中添加了包含失败代码和原因的失败字段。

  • 添加了验证器以防止在调用子进程模块时注入恶意字符串。

  • 在配置静态节点时,如果集群状态更改为 PROTECTED,则集群创建将失败。

更改:

  • 升级到 Slurm 版本 22.05.8(从版本 22.05.7)。

  • 将 EFA 安装程序升级到 1.21.0

    • Efa-driver:efa-2.1.1-1(从 efa-2.1

    • Efa-config:efa-config-1.12-1(从 efa-config-1.11-1)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.1amzn3.0-1(从 libfabric-aws-1.16.1

    • Rdma-core:rdma-core-43.0-1(从 rdma-core-43.0-2

    • Open MPI:openmpi40-aws-4.1.4-3(无变化)

  • 使 Slurm 控制器日志更加详尽,并为 Slurm 节能插件启用额外的日志记录。

错误修复:

  • 在启用 Slurm 会计的情况下,通过验证集群名称是否不超过 40 个字符,修复了集群数据库创建问题。

  • 修复了在 EC2 实例状态检查失败时 clustermgtd 中导致通过 Slurm 重启的计算节点被替换的问题。

  • 修复了由于头节点上的 IAM 策略不正确而导致与其他账户共享容量预留的计算节点无法启动的问题。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster-cookbook、aws-parallelcluster-node 和 aws-parallelcluster- ui 软件包的CHANGELOG文件。 GitHub

2023 年 2 月 20 日

Amazon ParallelCluster 3.4.1 版本已发布

Amazon ParallelCluster 3.4.1 版本已发布。

错误修复:

  • 修复了可能导致对计算节点的内部注册表不正确地应用更新的 Slurm 调度器问题。如果发生此问题,EC2 实例可能会变得不可用,或者可能由不正确的实例类型提供支持。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2023 年 1 月 13 日

Amazon ParallelCluster 3.4.0 版本已发布

Amazon ParallelCluster 3.4.0 版本已发布。

增强功能:

  • 添加了对跨多个可用区启动节点的支持,以提高容量可用性。

  • 添加了对为每个队列指定多个子网的支持,以提高容量可用性。

  • Iam/ResourcePrefix 中添加了为 Amazon ParallelCluster创建的 IAM 资源的路径和名称指定前缀的新配置参数。

  • 添加新的配置部分 DeploymentSettings/,LambdaFunctionsVpcConfig用于指定 Amazon ParallelCluster Lambda 函数使用的 Vpc 配置。

  • 添加了指定要在集群更新期间在头节点中运行的自定义脚本的功能。当使用 Slurm 作为调度器时,可以使用 HeadNode/CustomActions/OnNodeUpdated 来指定脚本。

更改:

  • 取消为现有文件系统创建 Amazon EFS 挂载目标。

  • 使用 amazon-efs-utils 挂载 EFS 文件系统。可以使用传输中加密和 IAM 授权用户来挂载 EFS 文件系统。

  • 在 Centos7 和 Ubuntu 上安装 stunnel 5.67 以支持 EFS 传输中加密。

  • 将 EFA 安装程序升级到 1.20.0(从 1.18.0)。

    • Efa-driver:efa-2.1(从 efa-1.16.0-1

    • Efa-config:efa-config-1.11-1(无变化)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.1(从 libfabric-aws-1.16.0~amzn4.0-1

    • Rdma-core:rdma-core-43.0-2(从 rdma-core-41.0-2

    • Open MPI:openmpi40-aws-4.1.4-3(从 openmpi40-aws-4.1.4-2

  • 将 Slurm 升级到版本 22.05.7(从 22.05.5)。

  • 将 Python 升级到 3.9.163.7.16(从 3.9.153.7.13)。

  • 使用 Slurm 22.05.7,处于 IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING 状态的动态节点不会被视为运行状况不佳。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2022 年 12 月 22 日

Amazon ParallelCluster 3.3.1 版本已发布

Amazon ParallelCluster 3.3.1 版本已发布。

更改:

  • 在 Amazon EC2 弃用两年后,官方 Amazon ParallelCluster 产品 AMI 现已上市。

  • 将 Amazon ParallelCluster API Lambda 的内存大小增加到 2048,以减少冷启动惩罚并避免超时。

错误修复:

  • 在进行包括更改计算实例集子网 ID 的集群更新时,防止替换托管的 FSx for Lustre 文件系统并防止数据丢失。

  • SharedStorage DeletionPolicy 适用于集群更新操作。

有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包CHANGELOG文件。 GitHub

2022 年 12 月 2 日

Amazon ParallelCluster 仅限文档 hpc6id 注意

Amazon ParallelCluster 仅限文档的更新

2022 年 12 月 2 日

Amazon ParallelCluster 3.1.5 版本已发布

Amazon ParallelCluster 3.1.5 版本已发布。

增强功能:

  • 修复了阻止空闲节点终止的 Slurm 问题。

  • 将 EFA 安装程序升级到 1.18.0

    • Efa-driver:efa-1.16.0-1

    • Efa-config:efa-config-1.11-1(从 efa-config-1.9-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1(从 libfabric-1.13.2

    • Rdma-core:rdma-core-41.0-2(从 rdma-core-37.0

    • Open MPI:openmpi40-aws-4.1.4-2(从 openmpi40-aws-4.1.1-2

更改:

  • lambda:ListTagslambda:UntagResource添加到ParallelClusterUserRole用于集群更新的 Amazon ParallelCluster API 堆栈中。

  • 将 Intel MPI Library 升级到 2021 年版更新 6(从 2021 年版更新 4)。有关更多信息,请参阅 Intel® MPI Library 2021 更新 6

  • 将 NVIDIA 驱动程序升级到版本 470.141.03(从 470.103.01)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03(从 470.103.01)。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2022 年 11 月 16 日

Amazon ParallelCluster 3.3.0 版本已发布

Amazon ParallelCluster 3.3.0 版本已发布。

增强功能:

  • 当使用 Slurm 作为调度器时,添加了对计算资源的多实例分配配置的支持。有关更多信息,请参阅 Slurm 的多实例类型分配

  • 添加了对使用更新配置进行集群更新时添加和删除 SharedStorage 的支持。有关更多信息,请参阅 共享存储

  • EfsFsxLustre 共享存储设置添加了新的配置参数以支持存储保留。

  • 通过新配置参数 Scheduling/SlurmSettings/Database,添加了对 Slurm 会计的支持。有关更多信息,请参阅 Slurm会计 Amazon ParallelCluster

  • 添加了对按需容量预留和容量预留资源组的支持。有关更多信息,请参阅 使用 ODCR(按需容量预留)启动实例

  • 在集群 Imds/ImdsSupport 和构建 Imds/ImdsSupport 配置中添加了用于指定要在集群或构建映像基础设施中支持的 IMDS 版本的新配置参数。

  • SlurmQueues/ComputeResources 部分中添加了对 Networking/PlacementGroup 的支持。

  • 添加了对具有多个网络接口并且每个设备仅限一个 ENI 的实例的支持。

  • 通过检查附加的安全组中的 CIDR 块,改进了外部 Amazon EFS 文件系统的网络验证。

  • 添加了用于检查配置的实例类型是否支持置放群组的验证器。

  • 将 NFS 线程数配置为 min(256, max(8, num_cores * 4)) 以确保更好的稳定性和性能。

  • 将 NFS 安装移至构建时以减少配置时间。

  • 为部署 Amazon ParallelCluster API 时创建的、用于通知 docker 镜像构建事件的 EcrImageBuilder SNS 主题启用服务器端加密。

更改:

  • 更改了 SlurmQueues/Networking/PlacementGroup/Enabled 的行为。现在,它会为每个计算资源创建一个唯一的托管置放群组,而不是为所有计算资源创建一个托管置放群组。

  • 添加了对 SlurmQueues/Networking/PlacementGroup/Name 作为首选命名方法的支持。

  • 将头节点标签从启动模板移动到了实例定义中,以避免在标签更新时替换头节点。

  • 通过 cloud-init 执行的脚本而不是通过启动模板中设置的 CpuOptions 禁用多线程处理。

  • 在 API 基础架构、API Docker 容器和集群 Lambda 资源中将 Python 升级到版本 3.9,将 NodeJS 升级到版本 16。

  • aws-parallelcluster-batch-cli 中删除了对 Python 3.6 的支持。

  • 将 Slurm 升级到版本 22.05.5(从 21.08.8-2)。

  • 将 NVIDIA 驱动程序升级到版本 470.141.03(从 470.129.06)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03(从 470.129.06)。

  • 将 NVIDIA CUDA Toolkit 升级到版本 11.7.1(from 11.4.4)。

  • 将 v Amazon ParallelCluster irtualenvs 中使用的 Python 从3.7.13升级到。3.9.15

  • 将 EFA 安装程序升级到版本 1.18.0。

    • Efa-driver:efa-1.16.0-1(无变化)

    • Efa-config:efa-config-1.11-1from efa-config-1.10-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1(从 libfabric-aws-1.16.0~amzn2.0-1

    • Rdma-core:rdma-core-41.0-2(从 rdma-core-37.0

    • Open MPI:openmpi40-aws-4.1.4-2(从 openmpi40-aws-4.1.1-2

  • 将 NICE DCV 升级到版本 2022.1-13300(从 2022.0-12760)。

  • Queues 启用 SingleSubnetValidator 抑制。

  • 当节点处于 COMPLETING 状态时不替换 DRAIN 节点,因为 Epilog 可能仍在运行。

错误修复:

  • 修复了 Amazon ParallelCluster ListClusterLogStreams命令中过滤器参数的验证失败的问题,即当传递的过滤器不正确时。

  • 修复了与EfsSettings其他 SharedStorageSharedStorage/参数一起指定FileSystemId时无法验证EfsSettings参数/的问题。以前不包括 FileSystemId

  • 修复了在配置中更改 SharedStorage 的顺序以及进行其他更改时的集群更新问题。

  • 修复UpdateParallelClusterLambdaRole了 Amazon ParallelCluster 用于上传日志的 API CloudWatch。

  • 修复了在执行任何说明书之前安装程序包时 Cinc 不使用本地 CA 证书捆绑包的问题。

  • 修复了在设置 Build:UpdateOsPackages:Enabled:true 后使用 pcluster build-image 升级 ubuntu 时出现的挂起问题。

  • 修复了 YAML 集群配置分析在遇到重复密钥时失败的问题。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2022 年 11 月 2 日

Amazon ParallelCluster 添加了仅限文档的 API 参考。

Amazon ParallelCluster 仅限文档的更新

2022 年 10 月 27 日

Amazon ParallelCluster 3.2.1 版本已发布

Amazon ParallelCluster 3.2.1 版本已发布。

增强功能:

  • 改进了逻辑,使主机路由表与不同网卡关联,从而更好地支持具有多个 NIC 的 EC2 实例。

更改:

  • 将 NVIDIA 驱动程序升级到版本 470.141.03。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03。

  • 禁用可能对节点性能产生负面影响的 cron 作业任务 man-dbmlocate

  • 将 Intel MPI Library 升级到 2021.6.0.602。

  • 将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。

错误修复:

  • 避免集群配置不可用时 DescribeCluster 失败。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2022 年 10 月 3 日

Amazon ParallelCluster 3.2.0 版本已发布

Amazon ParallelCluster 3.2.0 版本已发布。

增强功能:

更改:

  • 将 EFA 安装程序升级到版本 1.17.2。

    • EFA 驱动程序:efa-1.16.0-1

    • EFA 配置:efa-config-1.10-1

    • EFA 配置文件:efa-profile-1.5-1

    • Libfabric:libfabric-aws-1.16.0~amzn2.0-1

    • RDMA 内核:rdma-core-41.0-2

    • Open MPI:openmpi40-aws-4.1.4-2

  • 将 NICE DCV 升级到版本 2022.0-12760。

  • 将 NVIDIA 驱动程序升级到版本 470.129.06。

  • 将 NVIDIA Fabric Manager 升级到版本 470.129.06。

  • 将根卷和其他卷中的默认 EBS 卷类型从 gp2 更改为 gp3。

  • 对 FSx for Lustre 文件系统所做的更改由以下人员创建: Amazon ParallelCluster

    • 将默认部署类型更改为 Scratch_2

    • 将 Lustre 服务器版本更改为 2.12

  • 传递现有的 PlacementGroup/Id 时不需要将 PlacementGroup/Enabled 设置为 true

  • PlacementGroup/Enabled 显式设置为 false 时,不允许设置 PlacementGroup/Id

  • 为 Amazon ParallelCluster创建的所有资源添加标签 parallelcluster:cluster-name

  • 添加lambda:ListTagslambda:UntagResource,由 Amazon ParallelCluster API 堆栈ParallelClusterUserRole用于集群更新。

  • 启用配置参数 HeadNode/Imds/Secured 后,将 IPv6 对 IMDS 的问权限限制为仅根用户和集群管理员用户。

  • 对于自定义 AMI,请使用 AMI 根卷大小,而不是 ParallelCluster默认的 35 GiB。可以在集群配置文件中更改该值。

  • 当配置参数 Scheduling/SlurmQueues/ComputeResources/SpotPrice 低于所需的最低竞价型请求履行价格时,自动禁用计算实例集。

  • 在更新期间添加或删除某个部分时,在更改集中显示 requested_valuecurrent_value 值。

  • 禁用深度学习 AMI 中提供的 aws-ubuntu-eni-helper 服务,以避免在配置具有多个网卡的实例时与 configure_nw_interface.sh 冲突。

  • 删除了对 Python 3.6 的支持。

  • 在配置具有多个网卡的实例时,将所有网络接口的 MTU 设置为 9001。

  • 配置计算节点 FQDN 时,删除结尾圆点。

  • POWERING_DOWN 中管理静态节点。

  • 不替换 POWER_DOWN 中的动态节点,因为作业可能仍在运行。

  • 只有在更新了集群配置中的 Scheduling 参数时,才会在集群更新时重启 clustermgtdslurmctld 进程守护程序。

  • 更新 slurmctldslurmd systemd 服务文件。

  • 启用配置参数 HeadNode/Imds/Secured 后,将 IPv6 对 IMDS 的问权限限制为仅根用户和集群管理员用户。

  • 设置 Slurm 配置 AuthInfo=cred_expire=70 以缩短在节点不可用时重新排队的作业在重启之前必须等待的时间。

  • 升级第三方说明书依赖项:

    • apt-7.4.2(从 apt-7.4.0)

    • line-4.5.2(从 line-4.0.1)

    • openssh-2.10.3(从 openssh-2.9.1)

    • pyenv-3.5.1(从 pyenv-3.4.2)

    • selinux-6.0.4(从 selinux-3.1.1)

    • yum-7.4.0(从 yum-6.1.1)

    • yum-epel-4.5.0(从 yum-epel-4.1.2)

错误修复:

  • 修复构建自定义 AMI 时跳过 Amazon ParallelCluster 验证和测试步骤的默认行为。

  • 修复了 computemgtd 中的文件句柄泄漏问题。

  • 修复了因为 EC2 DescribeInstances 响应中尚不可用而偶尔导致已启动的实例立即终止的争用条件。

  • 对于使用 Arm 处理器的实例类型,修复了对 DisableSimultaneousMultithreading 参数的支持。

  • 修复从先前版本升级时的 Amazon ParallelCluster API 堆栈更新失败。在 EcrImageDeletionLambdaRole 中添加了用于 ListImagePipelineImages 操作的资源模式。

  • 修复 Amazon ParallelCluster API 在创建 FSx for Lustre 文件系统时添加了从亚马逊 S3 导入或导出所需的权限缺失的问题。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2022 年 7 月 27 日

Amazon ParallelCluster 今年迄今为止仅限文档的更新

Amazon ParallelCluster 仅限文档的更新。

2022 年 7 月 6 日

Amazon ParallelCluster 3.1.4 版本已发布

Amazon ParallelCluster 3.1.4 版本已发布。

增强功能:

更改:

  • 将 Slurm 升级到版本 21.08.8-2。

  • 借助 JWT 支持构建 Slurm。

  • 传递现有的 PlacementGroup/Id 时不需要将 PlacementGroup/Enabled 设置为 true

  • 添加lambda:TagResource到 ParallelCluster API 堆栈中ParallelClusterUserRole用于创建集群和创建映像。

错误修复:

  • 修复了使用带 --filters 选项的 export-cluster-logs 命令时导出集群日志的功能。

  • 修复 Amazon Batch Docker 入口点以使用/home共享目录来协调多节点并行作业执行。

  • 在将 slurm 不正常静态节点设置为关闭状态时重置节点地址,以避免将由于容量不足而失败的静态节点视为引导失败节点。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2022 年 5 月 16 日

Amazon ParallelCluster 3.1.3 版本已发布

Amazon ParallelCluster 3.1.3 版本已发布。

增强功能:

  • 当切换到其他用户以及在以其他用户身份执行命令时,例如在 SSH 登录期间,将会执行 SSH 密钥创建并创建主目录。

  • 在配置参数 DirectoryService/DomainName 中添加了对 FQDN 和 LDAP 可分辨名称的支持。新验证器现在会检查这两种语法。

  • 头节点上部署的新 update_directory_service_password.sh 脚本支持手动更新 SSSD 配置中的 Active Directory 密码。密码由 a Amazon Secrets Manager s 从集群配置中检索。

  • 添加了对在没有默认 VPC 的环境中部署 API 基础架构的支持。

更改:

  • 在 x86_64 官方 AMI 和通过 build-image 命令创建的 AMI 中禁用深层 C 状态,以保证高性能和低延迟。

  • 操作系统程序包更新和安全修复。

  • 将 Amazon Linux 2 基本映像更改为使用内核 5.10 的 AMI。

错误修复:

  • 修复了映像构建成功后由于新的 EC2 Image Builder 策略导致构建映像堆栈处于 DELETE_FAILED 状态的问题。

  • 修复了配置参数 DirectoryService/DomainAddr 在包含多个域地址时转换为 ldap_uri SSSD 属性的问题。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件以及 aws-parallelcluster- cookbook 软件包。 GitHub

2022 年 4 月 20 日

Amazon ParallelCluster 3.1.2 版本已发布

Amazon ParallelCluster 3.1.2 版本已发布。

更改:

  • 将 Slurm 升级到版本 21.08.6(从 21.08.5)。

错误修复:

  • 修复了在没有互联网访问权限的子网中部署集群时在计算节点上更新 /etc/hosts 文件的问题。

  • 修复了计算节点引导,在加入集群之前将等待临时驱动器初始化完成。

有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包的CHANGELOG文件。 GitHub

2022 年 3 月 2 日

Amazon ParallelCluster 3.1.1 版本已发布

Amazon ParallelCluster 3.1.1 版本已发布。

  • 通过与通过 Amazon Directory Service托管的 Active Directory (AD) 域集成,添加了对多用户集群环境的支持。

  • 在集群配置文件中添加了对 UseEc2Hostnames 的支持。如果设置为 true,则对计算节点使用 EC2 默认主机名(例如 ip-1-2-3-4)。

  • 添加了对在没有互联网访问权限的子网中创建集群的支持。

  • 添加了对每个队列包含多种计算实例类型的支持。

  • 在使用 NVIDIA 卡的 ARM 实例上添加了对使用 Slurm 进行 GPU 调度的支持。

  • 在 Amazon ParallelCluster CLI 中添加 cluster-name (-n)、region (-r)、image-id (-i) 和cluster-configuration/image-configuration(-c) 的缩写标志。

  • 为 FSx for Lustre AutoImportPolicy 参数添加了对 NEW_CHANGED_DELETED 选项的支持。

  • parallelcluster:compute-resource-name 标签添加到了计算节点使用的 EC2 LaunchTemplates 资源。

  • 改进了在集群中创建的安全组,在为某些头节点和/或队列指定 SecurityGroups 参数的情况下,允许来自自定义安全组的入站连接。

  • 为 ARM 安装 NVIDIA 驱动程序和 CUDA 库。

更改:

  • 将 Slurm 升级到版本 21.08.5(从 20.11.8)。

  • 将 Slurm 插件升级到版本 21.08(从 20.11)。

  • 将 NICE DCV 升级到版本 2021.3-11591(从 2021.1-10851)。

  • 将 NVIDIA 驱动程序升级到版本 470.103.01(从 470.57.02)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.103.01(从 470.57.02)。

  • 将 CUDA 升级到版本 11.4.4(从 11.4.0)。

  • Intel MPI 更新至 2021 年版更新 4(从 2019 年版更新 8 进行更新)。有关更多信息,请参阅 Intel® MPI Library 2021 更新 4

  • 将 PMIx 升级到版本 3.2.3(从 3.1.5)。

  • 删除了将失败的计算节点转储到 /home/logs/compute。计算节点日志文件在 EC2 控制台日志中可用 CloudWatch ,也可以在 EC2 控制台日志中找到。

  • 启用潜在抑制 SlurmQueuesComputeResources 长度验证器。

  • 在 Amazon Linux 2 上禁用实例启动时的程序包更新。

  • 在构建 Amazon ParallelCluster 自定义映像时禁用 EC2 ImageBuilder 增强型图像元数据。

  • cloud-init 数据源显式设置为 EC2。这可节省 Ubuntu 和 CentOS 平台的启动时间。

  • 在计算实例集启动模板名称中使用计算资源名称而不是实例类型。

  • 将 stderr 和 stdout 重定向到 CLI 日志文件,以防止 pcluster CLI 输出中出现不需要的文本。

  • 将配置/安装食谱移动到从主程序调用的单独说明书中。现有的入口点保持不变,并且向后兼容。

  • 在 AMI 构建期间下载 Intel HPC 平台的依赖项,以避免在集群创建期间联系互联网。

  • 配置 Slurm 节点时不从计算资源名称中删除 -

  • 未安装 NVIDIA 驱动程序时,不在 Slurm 中配置 GPU。

  • 修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。

  • 修复了未指定前缀时的集群日志导出问题,以前导出为 None 前缀。

  • 修复了集群更新失败时不执行回滚的问题。

  • 修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。

  • 修复了 HeadNodeRootVolume 架构,如果指定了不支持的 KmsKeyId,则会引发错误。

  • 修复 Amazon FSx 缺少要在控制面板中显示的 CloudWatch 指标。

  • 修复了 EfaSecurityGroupValidator。以前,在提供自定义安全组并启用 EFA 的情况下,它可能会产生假失败。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster -cookbook 和 aws-parallelclust er -nod e 软件包的CHANGELOG文件。 GitHub

2022 年 2 月 10 日

Amazon ParallelCluster 3.0.3 版本已发布

Amazon ParallelCluster 3.0.3 版本已发布。

有关变更的详细信息,请参阅 aws-parallelcluster 和 aws-parallelcluster-cookbook 软件包CHANGELOG文件。 GitHub

2022 年 1 月 17 日

Amazon ParallelCluster 3.0.2 版本已发布

Amazon ParallelCluster 3.0.2 版本已发布。

Elastic Fabric Adapter 安装程序升级到 1.14.1

  • EFA 配置:efa-config-1.9-1(从 efa-config-1.9

  • EFA 配置文件:efa-profile-1.5-1(从 efa-profile-1.5

  • EFA 内核模块:efa-1.14.2(从 efa-1.13.0

  • RDMA 内核:rdma-core-37.0(从 rdma-core-35

  • libfabric:libfabric-1.13.2(从 libfabric-1.13.0

  • Open MPI:openmpi40-aws-4.1.1-2(无变化)

如果实例类型支持,则始终启用 GPUDirect RDMA。GdrSupport配置选项无效。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster-cook book 和 aws-parallelcluster-node 软件包的CHANGELOG文件。 GitHub

2021 年 11 月 5 日

Amazon ParallelCluster 3.0.1 版本已发布

Amazon ParallelCluster 3.0.1 版本已发布。

集群配置迁移工具

  • 客户现在可以将其集群配置从 Amazon ParallelCluster 版本 2 格式迁移到基于 YAML 的 Amazon ParallelCluster 版本 3 格式。有关更多信息,请参阅 pcluster3-config-converter

可以停止头节点

  • 停止计算队列后,可以使用 Amazon EC2 控制台或 stop- Amazon CLI instances 命令停止头节点,然后再重新启动。

默认从~/.aws/config文件 Amazon Web Services 区域 读取

  • 对于该pcluster命令,如果未在配置文件、环境或命令行中指定,则使用~/.aws/config文件[default]部分的region设置中 Amazon Web Services 区域 指定的默认值。 Amazon Web Services 区域

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster-cook book 和 aws-parallelcluster-node 软件包的CHANGELOG文件。 GitHub

2021 年 10 月 27 日

Amazon ParallelCluster 3.0.0 版本已发布

Amazon ParallelCluster 3.0.0 版本已发布。

支持通过 Amazon API Gateway 进行集群管理

  • 现在,客户可以使用 Amazon API Gateway 通过 HTTP 端点管理和部署集群。这为脚本化或事件驱动的工作流程开辟了新的可能性。

    为了与此 API 兼容, Amazon ParallelCluster 命令行界面 (CLI) 也进行了重新设计,并包括一个新的 JSON 输出选项。这项新功能使客户也可以使用 CLI 实现类似的构造块功能。

改进了自定义 AMI 的创建

  • 现在,客户可以使用 EC2 Image Builder 采用更强大的流程来创建和管理自定义 AMI。自定义 AMI 现在可以通过单独的 Amazon ParallelCluster 配置文件进行管理,也可以在pcluster build-image命令行界面中使用 Amazon ParallelCluster 命令创建。

有关变更的详细信息,请参阅 aws-parallelcluster、aws-parallelcluster-cook book 和 aws-parallelcluster-node 软件包的CHANGELOG文件。 GitHub

2021 年 9 月 10 日