发行说明和文档历史记录 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

发行说明和文档历史记录

下表描述了 Amazon ParallelCluster 用户指南 的主要更新和新功能。我们还经常更新文档来处理发送给我们的反馈意见。

变更说明日期

Amazon ParallelCluster 3.11.0 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.11.0 已发布。

要升级,请键入sudo pip install --upgrade aws-parallelcluster

增强功能:

  • 添加了对登录节点上的自定义操作的支持。

  • 允许DCV连接到登录节点。

  • 添加对亚太地区(雅加达)区域的支持。

  • 向登录节点网络负载均衡器添加安全组。

  • 为登录节点添加AllowedIps配置。

  • 添加新配置SharedStorage/EfsSettings/AccessPointId,为挂载指定可选的 Amazon Elastic File System 接入点。

  • 允许最多 10 个登录节点池。

更改:

  • 升级到 23.11.10(从 23.11.7 开始)。

  • 将 Pmix 升级到 5.0.3(从 5.0.2 开始)。

  • 将EFA安装程序升级到 1.34.0。

    • efa-driver:efa-2.10.0-1

    • efa-config:efa-config-1.17-1

    • EFA 简介:efa-profile-1.7-1

    • libfabric-aws:libfabric-aws-1.22.0-1

    • rdma-core:rdma-core-52.0-1

    • 打开MPI:openmpi40-aws-4.1.6-3 和 openmpi50-aws-5.0.3-11

  • 将NVIDIA驱动程序升级到版本 550.90.07(从 535.183.01 开始)。

  • 将CUDA工具包升级到版本 12.4.1(从 12.2.2 开始)。

  • 将 Python 升级到 3.9.20(从 3.9.19 开始)。

  • 将英特尔MPI库升级到 2021.13.1.769(从 2021.12.1.8 开始)。

错误修复:

  • 修复验证器,EfaPlacementGroupValidator使其在使用容量块时不建议配置置放群组。

  • 确保按照安全组规则创建 A FSx mazon for Lustre(Amazon S3)文件系统,修复偶尔出现的集群创建失败。

  • 修复启用置放群组时集群删除失败的问题。

  • 修复了限制SSH访问时登录节点被标记为不健康的问题。

  • 修复后retrieve_supported_regions,它可以获得正确的 Amazon S3 网址。

  • 修复describe_images为使用分页。

  • No route tables found修复了将默认VPC子网指定为时的错误LoginNodes/Networking/SubnetIds

2024年9月25日

Amazon ParallelCluster 用户界面版本 2024.07.1 已发布

我们很高兴地宣布发布 Amazon ParallelCluster 用户界面版本 2024.07.1。

更改:

  • 添加对 Amazon ParallelCluster 3.10.1 的支持。

错误修复:

  • 修复了导致工作会计信息呈现中断的错误。

  • 修复了功能标记机制中的一个错误,该错误会在 PC 3.10.0+ 上禁用所有 PC 3.2.0+ 功能。

安全性:

查看完整的更新日志

2024 年 7 月 24 日

Amazon ParallelCluster 3.10.1 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.10.1 已发布。

错误修复:

  • 修复中国区域的镜像构建失败。

2024年7月8日

Amazon ParallelCluster 用户界面版本 2024.07.0 已发布

我们很高兴地宣布发布 Amazon ParallelCluster 用户界面版本 2024.07.0。

功能:

  • 增加了对 Amazon ParallelCluster 版本 3.10.0 的支持。

2024 年 7 月 2 日

Amazon ParallelCluster 3.10.0 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.10.0 已发布

要升级,请键入sudo pip install --upgrade aws-parallelcluster

增强功能:

  • 添加新的配置部分Scheduling/SlurmSettings/ExternalSlurmdbd以将集群连接到外部 Slurmdbd。

  • 允许在隔离的网络中运行构建映像。

  • 添加对亚马逊 Linux 2023 的支持。

  • 添加对 price-capacity-optimized as 的支持AllocationStrategy

  • 添加验证器以防止使用带有容量块的置放组。

更改:

  • 不再支持 CentOS 7。

  • 将 Cinc Client 从 18.2.7 升级到 18.4.12 版本。

  • 将 munge 升级到版本 0.5.16(从 0.5.15 开始)。

  • 将 Pmix 升级到 5.0.2(从 4.2.9 开始)。

  • 升级第三方说明书依赖项:

    • apt-7.5.22(来自 apt-7.5.14)

    • openssh-2.11.12(来自 openssh-2.11.3)

  • 移除第三方食谱:selinux-6.1.12。

  • 将EFA安装程序升级到1.32.0

    • Efa-driver:efa-2.8.0-1

    • EFA 配置:efa-config-1.16-1

    • EFA 简介:efa-profile-1.7-1

    • libfabric-AWS:libfabric-aws-1.21.0-1

    • RDMA 内核:rdma-core-50.0-1

    • 打开MPI:openmpi40-aws-4.1.6-3openmpi50-aws-5.0.2-12

  • 将NVIDIA驱动程序升级到版本 535.183.01(从 535.154.05 开始)。

  • 将 Python 升级到 3.9.19(从 3.9.17 开始)。

  • 将英特尔MPI库升级到 2021.12.1.8(从 2021.9.0.43482 起)。

错误修复:

  • 将数据存储库关联配置修复为AutoExportPolicyAutoImportPolicy选配置。

  • 修复了集群删除期间的一个问题,该问题现在可以在实例处于关闭或终止状态时完成计算队列清理。这是为了避免终止周期较长的实例类型的集群删除失败。

  • 允许在集群配置Monitoring部分启用 cloudwatch 控制面板并禁用警报。

  • 允许 ParallelCluster 自定义资源使用禁止验证器。PclusterCluster/SuppressValidators

  • 已删除,/etc/profile.d/pcluster.sh因此它不会在每次用户登录时执行,也cfn_bootstrap_virtualenv不会添加到PATH环境变量中。

  • 通过将字段替换为DescribeCluster作为响应failureReasonfailures修复ParallelClusterAPI规范。

  • 通过添加缺失的 CloudFormation 堆栈状态来修复ParallelClusterAPI规范:IMPORT_*REVIEW_IN_PROGRESS、和UPDATE_FAILED

  • 修复了阻止集群更新包含传输中加密EFS的文件系统的问题。

  • 修复了在用于共享内部数据时 slurmctld 和 slurmdbd 服务在头节点重启时无法重新启动的问题。EFS

  • 在 Ubuntu 系统上,删除与来自 Parallelcluster 的配置冲突的 cloud-init 日志文件的默认 logrotate 配置。

  • 修复 RHEL 8.10 或更高版本的映像构建失败。

2024 年 6 月 27 日

1.0.0 的 Terraform Provider 已发布 Amazon ParallelCluster

我们很高兴地宣布推出适用于 1.0.0 的 Terraform Provider。 Amazon ParallelCluster

功能:

2024 年 6 月 26 日

1.0.0 版的 Terraform 模块已发布 Amazon ParallelCluster

我们很高兴地宣布发布适用于 1.0.0 的 Terraform Module。 Amazon ParallelCluster

功能:

2024 年 6 月 26 日

Amazon ParallelCluster 3.9.3 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.9.3 已发布

要升级,请键入 sudo pip install --upgrade aws-parallelcluster

功能:

  • 中添加了对FSx Lustre作为共享存储类型的支持us-iso-east-1

错误修复:

  • cloud_dns从 Slurm 配置SlurmctldParameters中移除以避免 Slurm 扇出问题。

    这不是必需的,因为我们在实例启动时设置了 IP 地址。

2024年6月19日

Amazon ParallelCluster 3.9.2 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.9.2 已发布

功能:

  • Upgrade Slurm 到 23.11.7(从 23.11.4 开始)。

  • 有关更多详细信息,请参阅CHANGELOG3.9.2上的 GitHub。

2024 年 5 月 28 日

Amazon ParallelCluster 用户界面版本 2024.05.0 已发布

Amazon ParallelCluster 用户界面版本 2024.05.0 已发布。

错误修复:

  • 修复了用户打开 Job Status 面板时前端屏蔽界面的错误。

  • 完整更新日志

2024 年 5 月 14 日

Amazon ParallelCluster 用户界面版本 2024.04.0 已发布

Amazon ParallelCluster 用户界面版本 2024.04.0 已发布。

功能:

2024 年 4 月 17 日

Amazon ParallelCluster 3.9.1 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.9.1 已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

错误修复

  • 在更新群集操作中卸载文件系统时,移除对共享存储 mountdir 的递归删除。

2024 年 4 月 11 日

Amazon ParallelCluster 3.9.1 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.9.1 已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

错误修复

  • 在更新群集操作中卸载文件系统时,移除对共享存储 mountdir 的递归删除。

2024 年 4 月 11 日

Amazon ParallelCluster 用户界面版本 2024.03.0 已发布

Amazon ParallelCluster 用户界面版本 2024.03.0 已发布。

功能:

  • 增加了对 Amazon ParallelCluster 版本 3.9.0 的支持

  • 增加了对 Ubuntu 22.04 和红帽企业 Linux 9 的支持

  • 已弃用 Ubuntu 18.04

错误修复

  • 修复了使用多个集群时导致某些集群不显示的问题

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2024 年 3 月 12 日

Amazon ParallelCluster 3.9.0 版本已发布

我们很高兴地宣布 Amazon ParallelCluster 3.9.0 已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

增强功能:

  • 添加配置参数DeploymentSettings/DefaultUserHome以允许用户将默认用户的主目录移到/local/home而不是/home(默认)。

  • 无需停止计算队列即可更新MinCountMaxCountQueueComputeResource配置参数。现在可以通过将设置Scheduling/SlurmSettings/QueueUpdateStrategy为来更新它们TERMINATE。 Amazon ParallelCluster 将仅终止在通过群集更新调整群集容量时移除的节点。

  • 允许在 FileCache 不替换计算和登录队列的情况下更新 Efs FsxLustre FsxOntap、、 FsxOpenZfs 和类型的外部共享存储。

  • 添加对的支持RHEL9。

  • 添加对通过build-image流程CustomAmi创建的 Rocky Linux 9 的支持。目前还没有官方的 Amazon ParallelCluster Rocky9 AMI Linux 可用。

  • CommunicationParameters从自定义中移除 Slurm 设置拒绝名单。

  • 在支持OSes中添加DeploymentSettings/DisableSudoAccessForDefaultUser参数以禁用默认用户的 sudo 访问权限。

  • 对FSx于 Lustre 文件系统的更改由 ParallelCluster以下人员创建:将 Lustre 服务器版本更改为 2.15.

  • 通过['cluster']['nvidia']['kernel_open']食谱节点属性在构建 Nvidia 驱动程序时AMI,增加了在开源和闭源 Nvidia 驱动程序之间进行选择的可能性。

  • * 添加 clustermgtd 配置选项ec2_instance_missing_max_count以允许可配置的重试次数,以实现最终的 A EC2 mazon 描述实例与运行的实例保持一致。

更改

  • Upgrade Slurm 到 23.11.4(从 23.02.7 开始)。

  • 将NVIDIA驱动程序升级到版本 535.154.05。

  • 在 pc CLI luster 中添加对 Python 3.11、3.12 的支持,以及。 aws-parallelcluster-batch-cli

  • 使用 Amazon EC2 DescribeInstances 响应NetworkCardIndex列表中的网卡索引构建网络接口,而不是遍历MaximumNetworkCards范围。

  • 使用实例类型 P3、G3、P2 和 G2 时,集群创建失败,因为它们的GPU架构与 3.8.0 版本中引入的开源 Nvidia 驱动程序 (OpenRM) 不兼容。

  • 升级第三方食谱依赖项:nfs-5.1.2(从 nfs-5.0.0 开始)

  • 将EFA安装程序升级到 1.30.0.

    • Efa-driver:efa-2.6.0-1

    • EFA 配置:efa-config-1.15-1

    • EFA 简介:efa-profile-1.6-1

    • libfabric-AWS:libfabric-aws-1.19.0

    • RDMA 内核:rdma-core-46.0-1

    • 打开MPI:openmpi40-aws-4.1.6-2openmpi50-aws-5.0.0-11

  • 升级NICEDCV到版本 2023.1-16388.

    • server:2023.1.16388-1

    • xdcv:2023.1.565-1

    • gl:2023.1.1047-1

    • web_viewer:2023.1.16388-1

错误修复

  • 修复了从登录节点以 Active Directory 用户身份提交任务时任务失败的问题。该问题是由头节点上与外部 Active Directory 集成的配置不完整引起的。

  • 重构在 CloudFormation 模板 parallelclusser-policies.yaml 中定义的IAM策略,以防止由于策略超出限制而导致部署失败。 ParallelCluster API IAM

  • 修复了当头节点写入密钥所需的时间超过预期时间时,登录节点无法启动的问题。

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2024 年 3 月 5 日

Amazon ParallelCluster 用户界面版本 2024.02.0 已发布

Amazon ParallelCluster 用户界面版本 2024.02.0 已发布

更改:

  • 将 Lambda 运行时环境更新为 Python v3.9

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2024 年 2 月 8 日

Amazon ParallelCluster 用户界面版本 2023.12.0 已发布

Amazon ParallelCluster 用户界面版本 2023.12.0 已发布。

功能:

  • 增加了对使用私有网络进行PCUI部署的支持。

  • 增加了可选地将权限边界应用于PCUI和PCAPI基础架构创建的每个IAM角色的可能性

  • 增加了可选地为和PCAPI基础架构创建的每个IAM角色和策略应用前缀的可能性。PCUI

  • 增加了对 ParallelCluster 版本 3.8.0 的支持,向导中没有功能对等。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 12 月 21 日

Amazon ParallelCluster 3.8.0 版本已发布

Amazon ParallelCluster 3.8.0 版本已发布。

增强功能:

  • 添加对 Amazon 机器学习EC2容量块的支持。

  • 添加对通过build-image流程CustomAmi创建的 Rocky Linux 8 的支持。目前还没有官方的 Amazon ParallelCluster Rocky8 AMI Linux 可用。

  • 添加Scheduling/ScalingStrategy参数以控制在启动 Amazon EC2 实例时要使用的集群扩展策略 Slurm 计算节点。可能的值为all-or-nothinggreedy-all-or-nothingbest-effort、,且all-or-nothing为默认值。

  • 添加HeadNode/SharedStorageType参数以使用EFS存储而不是从头节点根卷NFS导出的集群内共享文件系统资源:Intel ParallelCluster、Slurm 和数据。/home此增强功能减少了头节点网络的负载。

  • 允许通过配置文件的SharedStorage部分/home作为EFS或FSx外部共享存储进行安装。

  • 添加新参数SlurmSettings/MungeKeySecretArn以允许使用 Secrets Manager 中用户定义的外部 Amazon 密MUNGE钥。

  • 添加Monitoring/Alarms/Enabled参数以切换集群的 Amazon CloudWatch 警报。

  • 添加头节点警报以监控 Amazon 运行EC2状况检查、CPU利用率和头节点的整体状态,并将其添加到使用集群创建的 CloudWatch 控制面板中。

  • 将 as 用于托管 Lustre 时PERSISTENT_2,添加DeploymentType对数据存储库关联FSx的支持。

  • 添加Scheduling/SlurmSettings/Database/DatabaseName参数以允许用户为数据库服务器上要使用的数据库指定自定义名称 Slurm 会计。

  • 在计算资源CapacityReservationTarget/CapacityReservationIdInstanceType进行配置时,请创建一个可选的配置参数。

  • 增加了为由创建的IAM角色和策略指定前缀的可能性 Amazon ParallelCluster API。

  • 增加了为所创建的IAM角色和策略指定要应用的权限边界的可能性 Amazon ParallelCluster API。

更改

  • Upgrade Slurm 到 23.02.7(从 23.02.6 开始)。

  • 将NVIDIA驱动程序升级到版本 535.129.03。

  • 将CUDA工具包升级到版本 12.2.2。

  • 使用开源NVIDIAGPU驱动程序 (OpenRM) 作为 Linux 的NVIDIA内核模块,而不是NVIDIA闭源模块。

  • 移除对中all_or_nothing_batch配置参数的支持 Slurm 恢复程序,倾向于使用新的Scheduling/ScalingStrategy群集配置。

  • 将集群警报命名约定更改为 “[集群名称]-[组件名称]-[指标]”。

  • 将根EBS卷和其他卷的ADC区域中的默认卷类型从 gp2 更改为 gp3。

  • 的可选权限边界现已应用于API基础架构创建的每个IAM角色。 Amazon ParallelCluster API

    • 将EFA安装程序升级到1.29.1

    • Efa-driver:efa-2.6.0-1

    • EFA 配置:efa-config-1.15-1

    • EFA 简介:efa-profile-1.5-1

    • libfabric-AWS:libfabric-aws-1.19.0-1

    • RDMA 内核:rdma-core-46.0-1

    • 打开MPI:openmpi40-aws-4.1.6-1

  • 除了使用 2.3.1 版本的 Centos 7 之外OSes,所有支持版本都升级GDRCopy到 2.4 版。

  • 升级aws-cfn-bootstrap到 2.0-28 版本。

  • 在中添加对 Python 3.10 的 aws-parallelcluster-batch-cli支持。

错误修复

  • 修复修改计算资源中声明的实例类型列表时,集群更新回滚后扩展配置不一致的问题。

  • 修复通过集群配置文件在与外部LDAP服务器集成的集群中切换没有 root 权限的用户时生成用户SSH密钥的问题。

  • 修复禁用问题 Slurm 设置时的省电模式ScaledownIdletime = -1

  • 将硬编码路径修复为 Slurm update_slurm_database_password.sh脚本中的安装目录 Slurm 会计。

2023 年 12 月 19 日

Amazon ParallelCluster 3.7.2 版本已发布

Amazon ParallelCluster 3.7.2 版本已发布。

更改:

  • Upgrade Slurm 到 23.02.6。

2023 年 10 月 25 日

Amazon ParallelCluster 用户界面版本 2023.10.0 已发布

Amazon ParallelCluster 用户界面版本 2023.10.0 已发布。

功能:

  • 增加了对 ParallelCluster 3.7.2 的支持,向导中的功能对等仅限于FSx文件缓存和与多种实例类型的基于内存的调度兼容。

错误修复:

  • 修复了PCUI无权与 Cost Explorer 交互时导致界面错误的问题。

改进

  • 通过将访问令牌TTL从 10 分钟缩短到 5 分钟,提高了安全性。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 10 月 20 日

Amazon ParallelCluster 3.7.1 版本已发布

Amazon ParallelCluster 3.7.1 版本已发布。

更改:

  • Upgrade Slurm 到 23.02.5(从 23.02.4 开始)。

    • 将 Pmix 升级到 4.2.6(从 3.2.3 开始)。

    • 将 libjwt 升级到 1.15.3(从 1.12.0 开始)。

  • 将EFA安装程序升级到1.26.1,修复 P5 中的RDMA写入数据问题。

    • EFA 司机:。efa-2.5.0-1

    • EFA 配置:。efa-config-1.15-1

    • EFA 简介:。efa-profile-1.5-1

    • libfabric-aws:。libfabric-aws-1.18.2-1

    • ERdma-核心:rdma-core-46.0-1

    • 打开MPI:openmpi40-aws-4.1.5-4

2023 年 9 月 22 日

Amazon ParallelCluster 3.7.0 版本已发布

Amazon ParallelCluster 3.7.0 版本已发布。

增强功能:

  • Support 使用配置YAML文件在计算资源中 Amazon ParallelCluster 配置静态和动态节点优先级。

  • 添加了对 Ubuntu 22 的支持。RSA默认情况下不支持密钥。

  • 添加了队列配置设置 JobExclusiveAllocation,用于在任何给定时间在分区中以独占模式将节点分配给单个作业。

  • 允许在创建集群和更新集群时覆盖aws-parallelcluster-node软件包。对于头节点,这适用于集群更新。仅用于开发目的。

  • 避免在计算节点上启动NFS服务器。

  • 添加了对登录节点的支持。

  • 当为某项指定了多个实例类型时,允许基于内存的调度 Slurm 计算资源。

  • 添加了支持,允许将现有 Amazon 文件缓存作为共享存储进行挂载。

更改:

  • 分配 Slurm 默认情况下,动态节点的优先级(权重)为 1000。通过这样做,Slurm 可以优先考虑闲置静态节点而不是空闲动态节点。

  • 使aws-parallelcluster-node守护程序只能处理托管 Amazon ParallelCluster Slurm 分区。

  • EFS-utils 监视器轮询间隔增加到 10 秒。当 EncryptionInTransit 设置为 true 时(这是导致监视器运行的唯一条件),此更改适用。

  • 将EFA安装程序升级到1.25.1

    • Efa-driver:efa-2.5.0-1(从 efa-2.1.1g

    • Efa-config:efa-config-1.15-1(从 efa-config-1.13-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.18.1-0(从 libfabric-aws-1.17.1-1

    • Rdma-core:rdma-core-46.0-1(从 rdma-core-43.0-1

    • 打开MPI:openmpi40-aws-4.1.5-4(来自 openmpi40-aws-4.1.5-1

  • Upgrade Slurm 到版本 23.02.4。

  • 将 Imds/ 的默认值ImdsSupport 从 v1.0 更改为 v2.0。

  • 弃用 Ubuntu 18。

  • 将默认根卷大小更新为 40 GB,以补偿对 Centos 7 的限制。

  • 限制头节点内文件 /tmp/wait_condition_handle.txt 的权限,只有根用户才能读取。

  • 创建一个 Slurm partition-nodelist 映射JSON文件供节点包守护程序用来识别 PC 管理的 Slurm 分区和节点列表。

  • 将NVIDIA驱动程序升级到版本 535.54.03。

  • 将CUDA库升级到版本 12.2.0。

  • 将NVIDIA结构管理器升级到 nvidia-fabricmanager-535。

  • 仅适用于 Ubuntu 22.04 的 ARM PL 升级到 23.04.1 版。

  • 升级NICEDCV到版本2023.0-15487

    • Server:2023.0.15487-1

    • xdcv:2023.0.551-1

    • gl:2023.0.1039-1

    • web_viewer:2023.0.15487-1

错误修复:

  • ScaledownIdletime 值添加验证功能,以防止设置的值低于 -1。

  • 修复在已启用的GPU实例AMI上使用 Ubuntu 深度学习创建集群失败的问题DCV。

  • 修复了使用创建 ParallelCluster CloudFormation 自定义资源提供程序时导致创建悬挂IAM策略的问题 CustomLambdaRole。

  • 修复了使用SlurmSettings/Dns/UseEc2Hostnames等于时导致具有多个网络接口的实例上的计算节点DNS名称不对齐的问题 True

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 8 月 30 日

仅文档发布

Amazon ParallelCluster 第 3 版特定用户指南已发布。

仅文档发布:

  • Amazon ParallelCluster 版本 3 有自己的单独用户指南。

2023 年 7 月 17 日

Amazon ParallelCluster 版本 3.6.1 已发布

Amazon ParallelCluster 3.6.1 版本已发布。

更改:

  • clustermgtd如果将计算节点添加到多个计算节点,请避免出现重复的节点 Slurm 分区。

错误修复:

  • 删除根卷设备名称(/dev/sda1/dev/xvda)的硬编码,然后从期间使用的中检索它create-cluster。AMI

  • 修复使用ElasticIp设置为的 CloudFormation 自定义资源时集群创建失败的问题True

  • 修复使用包含大型配置文件的 Amazon CloudFormation 自定义资源时集群创建和更新失败的问题。

  • 修复了无法在 Ubuntu 上禁用ptrace保护且不允许在 libfabric 中使用跨内存附加 (CMA) 的问题。

  • 修复了使用多个实例类型且未返回任何实例时的快速容量不足故障转移逻辑。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 7 月 5 日

Amazon ParallelCluster 用户界面版本 2023.06.0 已发布

Amazon ParallelCluster 用户界面版本 2023.06.0 已发布。

更改:

  • 已将默认 Amazon ParallelCluster API版本升级到 3.6.0。

错误修复:

  • 修复了 Amazon GovCloud (美国西部)区域部署中断的问题。

  • 现在,在创建开始后,拆分面板可以正确加载集群详细信息。

注意:

  • 成本监控功能在中不可用 Amazon GovCloud (US) Regions。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 6 月 7 日

Amazon ParallelCluster 3.6.0 版本已发布

Amazon ParallelCluster 3.6.0 版本已发布。

文档:

增强功能:

  • 添加对的支持RHEL8。

  • 添加用于创建和管理集群的Amazon CloudFormation 自定义资源 CloudFormation。

  • 添加对自定义集群的支持 Slurm 配置YAML文件中的 Amazon ParallelCluster 配置。

  • 构建 Slurm 支持LUA。

  • 将每个集群的最大队列数限制从 10 增加到 50。每个队列最多可以有 50 个计算资源。每个集群最多可以有 50 个计算资源。

  • 添加了支持,允许为 OnNodeStartOnNodeConfiguredOnNodeUpdated 参数中配置的事件指定一系列多个自定义操作脚本

  • 添加新的配置部分HealthChecks/Gpu,用于在作业运行之前对计算节点进行运行GPU状况检查。

  • SlurmQueuesSlurmQueues/ComputeResources 配置中添加了对 Tags 的支持。

  • Monitoring 配置中添加了对 DetailedMonitoring 的支持。

  • 在 Amazon ParallelCluster CloudWatch 仪表板中添加mem_used_percent头节点内存和根卷磁盘利用率跟踪disk_used_percent指标,并设置警报以监控这些指标。

  • 对 Amazon ParallelCluster 托管的 日志添加了日志轮换支持。

  • CloudWatch 控制面板中跟踪常见的计算节点错误和动态节点最长空闲时间。

  • 强制DCV身份验证器服务器在创建SSL套接字时至少使用TLS-1.2协议。

  • 在除aarch64centos7和之外的所有支持的操作系统上安装 NVIDIAData Center GPU Manager (DCGM) 软件包alinux2

  • 默认加载内核模块 nvidia-uvm,为驱动程序提供统一虚拟内存 (UVM) 功能。CUDA

  • NVIDIA持久守护程序安装为系统服务。

更改:

  • Upgrade Slurm 到版本23.02.2(从版本22.05.8)。

  • 将 munge 升级到版本 0.5.15(从版本 0.5.14)。

  • 设置 Slurm TreeWidth到 30。

  • 设置 Slurm prolog以及/opt/slurm/etc/scripts/epilog.d/分别对目标目录/opt/slurm/etc/scripts/prolog.d/和的epilog配置。

  • 设置 Slurm BatchStartTimeout在注册计算节点期间,运行Prolog脚本最长可达 3 分钟。

  • 将 CloudWatch 日志RetentionInDays的默认值从 14 天增加到 180 天。

  • 将EFA安装程序升级到1.22.1

    • Dkms:2.8.3-2

    • Efa-driver:efa-2.1.1g(无变化)

    • Efa-config:efa-config-1.13-1(无变化)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.17.1-1(从 libfabric-aws-1.17.0-1

    • Rdma-core:rdma-core-43.0-1(无变化)

    • 打开MPI:openmpi40-aws-4.1.5-1(无变化)

  • 在 Amazon Linux 2 上将 Lustre 客户端版本升级到 2.12。Lustre 客户端 2.12 已经安装在 Ubuntu 20.04、18.04 和 CentOS >= 7.7 上。

  • 在 CentOS 7.6 上将 Lustre 客户端版本升级到 2.10.8

  • 将NVIDIA驱动程序升级到版本470.182.03(从版本470.141.03)。

  • 将NVIDIA结构管理器升级到版本470.182.03(从版本470.141.03)。

  • 将NVIDIACUDA工具包升级到版本11.8.0(从版本11.7.1)。

  • 将NVIDIACUDA示例升级到版本11.8.0

  • 将英特尔MPI库升级到 2021 版更新 9(从 2021 版更新 6 开始)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 9

  • 升级NICEDCV到版本2023.0-15022(从版本2022.2-14521)。

    • server:2023.0.15022-1(从版本 2022.2-14521-1)。

    • xdcv:2023.0.547-1(从版本 2022.2.519-1)。

    • gl:2023.0.1027-1(从版本 2022.2.1012-1)。

    • web_viewer:2023.0.15022-1(从版本 2022.2.14521-1)。

  • aws-cfn-bootstrap 升级到版本 2.0-24

  • 升级 CodeBuild 环境在为集 Amazon Batch 群构建容器镜像时使用的镜像:

    • aws/codebuild/amazonlinux2-x86_64-standard:4.0(从 aws/codebuild/amazonlinux2-x86_64-standard:3.0)。

    • aws/codebuild/amazonlinux2-aarch64-standard:2.0(从 aws/codebuild/amazonlinux2-aarch64-standard:1.0)。

错误修复:

  • 修复 Amazon EFS 和 Amazon FSx 网络安全组验证器,避免报告虚假错误。

  • 修复了 Image Builder 在 build-image 操作期间创建的资源缺少标记的问题。

  • 修复了 MaxCount 的更新策略,使其始终对 MaxCount 属性进行数值比较。

  • 修复了具有多个网卡的计算节点实例上的 IP 一致性问题。

  • 修复了StoragePass在执行队列参数更新slurm_parallelcluster_slurmdbd.conf时替换以及 Slurm 记账配置未更新。

  • 修复了在使用现有EFS文件系统创建集群时导致创建悬空安全组的问题。

  • 修复了重启 cfn-hup 进程守护程序时导致其失败的问题。

  • 将带有INVALID_REG标记的动态节点视为引导失败 Slurm 保护模式。静态节点出现故障 Slurm 之后,注册已被视为引导失败。node_replacement_timeout

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 5 月 22 日

Amazon ParallelCluster 用户界面版本 2023.05.0 已发布

Amazon ParallelCluster 用户界面版本 2023.05.0 已发布。

增强功能:

  • 从 3.6.0 Amazon ParallelCluster 版开始,添加对 8 的支持。RHEL

  • 添加了集群成本监控功能。

  • 从 3.6.0 Amazon ParallelCluster 版开始,增加队列和计算资源配额。

更改:

  • 改进了集群创建向导的用户界面。

  • 提高了 Amazon ParallelCluster UI 部署的速度。

  • 改进了添加新用户的界面。

  • 队列默认位于头节点子网中。

错误修复:

  • 集群创建完成后,切换到正确的区域。

  • 修复了“编辑集群”功能中的加载指示器显示问题。

  • 修复移除EBS SnapshotId 属性时创建集群的问题。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 5 月 16 日

Amazon ParallelCluster 用户界面版本 2023.04.0 已发布

Amazon ParallelCluster 用户界面版本 2023.04.0 已发布。

增强功能:

  • 重新设计了集群创建向导。

  • 重新设计了集群日志页面。

  • 为共享存储添加了自定义名称设置。

  • 在向集群添加存储时添加了多个存储选项。

  • 添加对 Amazon EFS 和 Lustre FSx 的DeletionPolicy支持。

  • 在集群配置中添加了 ImdsSupport 设置。

  • 添加了对 C7 实例类型的支持。

  • 添加了教程恢复到以前的 Amazon Systems Manager 文档版本

更改:

  • 集群配置大小不YAML超过 1MB。

  • 由于使用 Boto3 IAM 临时凭证进行授权,用户未注销。

  • 选择HPC实例时禁用多线程选项。

  • 删除了集群创建页面上的禁用回滚功能。

  • 在提供所需信息之前,用户将无法使用用户 Amazon ParallelCluster 界面。

  • 最多可以添加 10 个队列。

  • 在 Amazon ParallelCluster UI 安装过程中不覆盖 SSM-SessionManagerRunShell 文档。

错误修复:

  • 修复了损坏的重置密码链接。

  • 修复了因 EcrPrivateRepository 不为空而导致 delete stack 损坏的问题

  • 修复了多用户管理属性部分中 “生成SSH密钥” 复选框的初始化问题。

  • 修复了因作业具有未定义属性而导致崩溃的问题。

  • 固定SCRATCHFSx设置。

  • 修复了“启动和停止实例”按钮,单击一次后仍处于启用状态。

有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG文件 GitHub。

2023 年 4 月 17 日

Amazon ParallelCluster 3.5.1 版本已发布

Amazon ParallelCluster 3.5.1 版本已发布。

增强功能:

更改:

  • 将EFA安装程序升级到1.22.0

    • Efa-driver:efa-2.1.1g(从 efa-2.1.1-1

    • Efa-config:efa-config-1.13-1(从 efa-config-1.12-1)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.17.0-1(从 libfabric-aws-1.16.1amzn3.0-1

    • Rdma-core:rdma-core-43.0-1(无变化)

    • 打开MPI:openmpi40-aws-4.1.5-1(来自openmpi40-aws-4.1.4-3

    升级NICEDCV到版本2022.2-14521

    • server:2022.2.14521-1

    • xdcv:2022.2.519-1

    • gl:2022.2.1012-1

    • web_viewer:2022.2.14521-1

错误修复:

  • 修复在集群更新过程中移除共享 Amazon EBS 卷/etc/exportsMountDir和之间的模式匹配导致的潜在节点启动失败。

  • 修复了每次 clustermgtd 迭代时 compute_console_output 日志文件被截断的问题。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 3 月 29 日

Amazon ParallelCluster 3.5.0 版本已发布

Amazon ParallelCluster 3.5.0 版本已发布。

增强功能:

  • 使用 Amazon ParallelCluster UI 访问和管理集群。

  • 在 CloudFormation 模板中添加版本化 Amazon ParallelCluster 策略,供您在工作负载中引用。

  • 添加一个可以与自己的代码一起使用的 Amazon ParallelCluster Python 库。

  • 在计算节点引导失败时向 Amaz CloudWatch on 添加计算节点控制台输出的日志记录。

  • 集群创建失败时向 describe-cluster 输出中添加了包含失败代码和原因的失败字段。

  • 添加了验证器以防止在调用子进程模块时注入恶意字符串。

  • 在配置静态节点时,如果集群状态更改为 PROTECTED,则集群创建将失败。

更改:

  • 升级到 Slurm 版本22.05.8(来自版本22.05.7

  • 将EFA安装程序升级到1.21.0

    • Efa-driver:efa-2.1.1-1(从 efa-2.1

    • Efa-config:efa-config-1.12-1(从 efa-config-1.11-1)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.1amzn3.0-1(从 libfabric-aws-1.16.1

    • Rdma-core:rdma-core-43.0-1(从 rdma-core-43.0-2

    • 打开MPI:openmpi40-aws-4.1.4-3(无变化)

  • Make Slurm 控制器日志更详细,并启用额外的日志记录 Slurm 省电插件。

错误修复:

  • 通过验证集群名称是否长度不超过 40 个字符来修复集群数据库创建问题 Slurm 已启用记账。

  • 修复了clustermgtd导致计算节点通过重启的问题 Slurm,如果 Amazon EC2 实例状态检查失败,则将被替换。

  • 修复了由于头节点上的IAM策略不正确而导致其他账户共享容量预留的计算节点无法启动的问题。

有关更改的详细信息,请参阅上的 aws-parallelclusteraws-parallelcluster-cookbookaws-parallelcluster-node、和软件包的CHANGELOG文件。aws-parallelcluster-ui GitHub

2023 年 2 月 20 日

Amazon ParallelCluster 3.4.1 版本已发布

Amazon ParallelCluster 3.4.1 版本已发布。

错误修复:

  • 修复 Slurm 调度器问题,可能导致计算节点内部注册表的更新应用不正确。因此,如果出现此问题,EC2实例可能会变得不可用,或者可能由不正确的实例类型支持。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 1 月 13 日

Amazon ParallelCluster 3.4.0 版本已发布

Amazon ParallelCluster 3.4.0 版本已发布。

增强功能:

  • 添加了对跨多个可用区启动节点的支持,以提高容量可用性。

  • 添加了对为每个队列指定多个子网的支持,以提高容量可用性。

  • Iam/中添加新的配置参数 ResourcePrefix,以指定由创建的IAM资源的路径和名称的前缀 Amazon ParallelCluster。

  • 添加新的配置部分 DeploymentSettings/,LambdaFunctionsVpcConfig用于指定 Amazon ParallelCluster Lambda 函数使用的 Vpc 配置。

  • 添加了指定要在集群更新期间在头节点中运行的自定义脚本的功能。使用OnNodeUpdated时可以用 HeadNode/CustomActions/指定脚本 Slurm 作为调度器。

更改:

  • 删除为现有文件系统创建的 Amazon EFS 挂载目标。

  • 使用挂载EFS文件系统amazon-efs-utils。EFS可以使用传输中加密和IAM授权用户来装载文件系统。

  • 在 Cent OS7 和 Ubuntu 上安装 stunnel 5.67 以支持传输中加密。EFS

  • 将EFA安装程序升级到1.20.0(从1.18.0)。

    • Efa-driver:efa-2.1(从 efa-1.16.0-1

    • Efa-config:efa-config-1.11-1(无变化)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.1(从 libfabric-aws-1.16.0~amzn4.0-1

    • Rdma-core:rdma-core-43.0-2(从 rdma-core-41.0-2

    • 打开MPI:openmpi40-aws-4.1.4-3来自 (openmpi40-aws-4.1.4-2)

  • Upgrade Slurm 到版本22.05.7(从22.05.5)。

  • 将 Python 升级到 3.9.163.7.16(从 3.9.153.7.13)。

  • 随着 Slurm 22.05.7,处于IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING状态的动态节点不被视为运行状况不佳。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 12 月 22 日

Amazon ParallelCluster 3.3.1 版本已发布

Amazon ParallelCluster 3.3.1 版本已发布。

更改:

  • AMIs在亚马逊EC2弃用两年后,官方 Amazon ParallelCluster 产品现已上市。

  • 将 Amazon ParallelCluster API Lambda 的内存大小增加到 2048,以减少冷启动惩罚并避免超时。

错误修复:

  • 防止替换托管FSx的 Lustre 文件系统以及包括计算队列子网 ID 更改在内的集群更新数据丢失。

  • SharedStorage DeletionPolicy 适用于集群更新操作。

有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包CHANGELOG文件。 GitHub

2022 年 12 月 2 日

Amazon ParallelCluster 仅限文档 hpc6id 注意

Amazon ParallelCluster 仅限文档的更新

2022 年 12 月 2 日

Amazon ParallelCluster 3.1.5 版本已发布

Amazon ParallelCluster 3.1.5 版本已发布。

增强功能:

  • 修复 Slurm 防止空闲节点终止的问题。

  • 将EFA安装程序升级到 1.18.0

    • Efa-driver:efa-1.16.0-1

    • Efa-config:efa-config-1.11-1(从 efa-config-1.9-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1(从 libfabric-1.13.2

    • Rdma-core:rdma-core-41.0-2(从 rdma-core-37.0

    • 打开MPI:openmpi40-aws-4.1.4-2(来自openmpi40-aws-4.1.1-2

更改:

  • lambda:ListTagslambda:UntagResource添加到 Amazon ParallelCluster API堆栈ParallelClusterUserRole用于集群更新的中。

  • 将英特尔MPI库升级到 2021 版更新 6(从 2021 版更新 4 开始)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 6

  • 将NVIDIA驱动程序升级到版本 470.141.03(从 470.103.01 开始)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03(从 470.103.01 开始)。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 11 月 16 日

Amazon ParallelCluster 3.3.0 版本已发布

Amazon ParallelCluster 3.3.0 版本已发布。

增强功能:

  • 使用时添加对计算资源的多实例分配配置的支持 Slurm 作为调度员。有关更多信息,请参阅 Slurm 的多实例类型分配

  • 添加了对使用更新配置进行集群更新时添加和删除 SharedStorage 的支持。有关更多信息,请参阅 共享存储

  • EfsFsxLustre 共享存储设置添加了新的配置参数以支持存储保留。

  • 添加对的支持 Slurm 使用新的配置参数 Scheduling/SlurmSettings/进行核算Database。有关更多信息,请参阅 Slurm 用会计 Amazon ParallelCluster

  • 添加对按需容量预留 (ODCR) 和容量预留资源组的支持。有关更多信息,请参阅 使用按需容量预留启动实例 (ODCR)

  • 添加新的配置参数以指定要在集群中支持的IMDS版本或在集群中构建映像基础架构ImdsSupportImds/和 build、Imds/ImdsSupport、配置。

  • SlurmQueues/ComputeResources 部分中添加了对 Networking/PlacementGroup 的支持。

  • 添加对具有多个网络接口且ENI每台设备仅限一个网络接口的实例的支持。

  • 通过检查附加的安全组中的CIDR封锁,改进对外部 Amazon EFS 文件系统的网络验证。

  • 添加了用于检查配置的实例类型是否支持置放群组的验证器。

  • 将NFS线程配置为最小值(256,最大(8,num_cores * 4)),以确保更好的稳定性和性能。

  • 在构建时移动NFS安装以减少配置时间。

  • 为部署 Amazon ParallelCluster API时创建的 EcrImageBuilder SNS主题启用服务器端加密,该主题用于通知 docker 镜像构建事件。

更改:

  • 更改了 SlurmQueues/Networking/PlacementGroup/Enabled 的行为。现在,它会为每个计算资源创建一个唯一的托管置放群组,而不是为所有计算资源创建一个托管置放群组。

  • 添加了对 SlurmQueues/Networking/PlacementGroup/Name 作为首选命名方法的支持。

  • 将头节点标签从启动模板移动到了实例定义中,以避免在标签更新时替换头节点。

  • 通过 cloud-init 执行的脚本而不是通过启动模板中设置的 CpuOptions 禁用多线程处理。

  • 在基础架构、Docker 容器和集群 Lambda 资源中API将 Python 升级到版本 3.9API,将 NodeJS 升级到版本 16。

  • aws-parallelcluster-batch-cli 中删除了对 Python 3.6 的支持。

  • Upgrade Slurm 到版本22.05.5(从21.08.8-2)。

  • 将NVIDIA驱动程序升级到版本470.141.03(从470.129.06)。

  • 将 NVIDIA Fabric Manager 升级到版本470.141.03(从470.129.06)。

  • 将NVIDIACUDA工具包升级到版本 11.7.1 (from 11.4.4)。

  • 将 v Amazon ParallelCluster irtualenvs 中使用的 Python 从3.7.13升级到。3.9.15

  • 将EFA安装程序升级到 1.18.0 版。

    • Efa-driver:efa-1.16.0-1(无变化)

    • Efa-config:efa-config-1.11-1from efa-config-1.10-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1(从 libfabric-aws-1.16.0~amzn2.0-1

    • Rdma-core:rdma-core-41.0-2(从 rdma-core-37.0

    • 打开MPI:openmpi40-aws-4.1.4-2(来自openmpi40-aws-4.1.1-2

  • 升级NICEDCV到版本2022.1-13300(从2022.0-12760)。

  • Queues 启用 SingleSubnetValidator 抑制。

  • 当节点处于 COMPLETING 状态时不替换 DRAIN 节点,因为 Epilog 可能仍在运行。

错误修复:

  • 修复了 Amazon ParallelCluster ListClusterLogStreams命令中过滤器参数的验证失败的问题,即当传递的过滤器不正确时。

  • 修复了与EfsSettings其他 SharedStorageSharedStorage/参数一起指定FileSystemId时无法验证EfsSettings参数/的问题。以前不包括 FileSystemId

  • 修复了在配置中更改 SharedStorage 的顺序以及进行其他更改时的集群更新问题。

  • 修复UpdateParallelClusterLambdaRole了 Amazon ParallelCluster API要将日志上传到的内容 CloudWatch。

  • 修复了在执行任何说明书之前安装程序包时 Cinc 不使用本地 CA 证书捆绑包的问题。

  • 修复了在设置 Build:UpdateOsPackages:Enabled:true 后使用 pcluster build-image 升级 ubuntu 时出现的挂起问题。

  • 修复了由于密钥重复失败而导致的YAML集群配置解析问题。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 11 月 2 日

Amazon ParallelCluster 添加了仅限文档的API参考。

Amazon ParallelCluster 仅限文档的更新

2022 年 10 月 27 日

Amazon ParallelCluster 3.2.1 版本已发布

Amazon ParallelCluster 3.2.1 版本已发布。

增强功能:

  • 改进逻辑,将主机路由表关联到不同的网卡,从而更好地支持带有多个网卡的 Amazon EC2 实例NICs。

更改:

  • 将NVIDIA驱动程序升级到版本 470.141.03。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03。

  • 禁用可能对节点性能产生负面影响的 cron 作业任务 man-dbmlocate

  • 将英特尔MPI库升级到 2021.6.0.602。

  • 将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。

错误修复:

  • 避免集群配置不可用时 DescribeCluster 失败。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 10 月 3 日

Amazon ParallelCluster 3.2.0 版本已发布

Amazon ParallelCluster 3.2.0 版本已发布。

增强功能:

更改:

  • 将EFA安装程序升级到版本 1.17.2。

    • EFA司机:efa-1.16.0-1

    • EFA配置:efa-config-1.10-1

    • EFA个人资料:efa-profile-1.5-1

    • Libfabric:libfabric-aws-1.16.0~amzn2.0-1

    • RDMA核心:rdma-core-41.0-2

    • 打开MPI:openmpi40-aws-4.1.4-2

  • 升级NICEDCV到 2022.0-12760 版本。

  • 将NVIDIA驱动程序升级到版本 470.129.06。

  • 将 NVIDIA Fabric Manager 升级到版本 470.129.06。

  • 将根EBS卷和其他卷中的默认卷类型从 gp2 更改为 gp3。

  • 对FSx于 Lustre 文件系统的更改由以下人员创建: Amazon ParallelCluster

    • 将默认部署类型更改为 Scratch_2

    • 将 Lustre 服务器版本更改为 2.12

  • 传递现有的 PlacementGroup/Id 时不需要将 PlacementGroup/Enabled 设置为 true

  • PlacementGroup/Enabled 显式设置为 false 时,不允许设置 PlacementGroup/Id

  • 为 Amazon ParallelCluster创建的所有资源添加标签 parallelcluster:cluster-name

  • 添加lambda:ListTagslambda:UntagResource,供 Amazon ParallelCluster API堆栈ParallelClusterUserRole用于集群更新。

  • 启用配置参数HeadNode/Imds/Secured后,仅限根用户和集群管理员用户IPv6访问权限。IMDS

  • 对于自定义AMI,请使用AMI根卷大小,而不是 ParallelCluster默认的 35 GiB。可以在集群配置文件中更改该值。

  • 当配置参数 Scheduling/SlurmQueues/ComputeResources/SpotPrice 低于所需的最低竞价型请求履行价格时,自动禁用计算实例集。

  • 在更新期间添加或删除某个部分时,在更改集中显示 requested_valuecurrent_value 值。

  • 禁用深度学习中提供的aws-ubuntu-eni-helper服务AMIs,以避免在配置具有多个网卡的实例configure_nw_interface.sh时发生冲突。

  • 删除了对 Python 3.6 的支持。

  • MTU使用多个网卡配置实例时,所有网络接口均设置为 9001。

  • 配置计算节点时,删除尾随的圆点FQDN。

  • POWERING_DOWN 中管理静态节点。

  • 不替换 POWER_DOWN 中的动态节点,因为作业可能仍在运行。

  • 只有在更新了集群配置中的 Scheduling 参数时,才会在集群更新时重启 clustermgtdslurmctld 进程守护程序。

  • 更新 slurmctldslurmd systemd 服务文件。

  • 启用配置参数HeadNode/Imds/Secured后,仅限根用户和集群管理员用户IPv6访问权限。IMDS

  • 设置 Slurm 配置AuthInfo=cred_expire=70以缩短在节点不可用时重新排队的任务在重新启动之前必须等待的时间。

  • 升级第三方说明书依赖项:

    • apt-7.4.2(从 apt-7.4.0)

    • line-4.5.2(从 line-4.0.1)

    • openssh-2.10.3(从 openssh-2.9.1)

    • pyenv-3.5.1(从 pyenv-3.4.2)

    • selinux-6.0.4(从 selinux-3.1.1)

    • yum-7.4.0(从 yum-6.1.1)

    • yum-epel-4.5.0(从 yum-epel-4.1.2)

错误修复:

  • 修复默认行为,以便在构建自定义时跳过 Amazon ParallelCluster 验证和测试步骤AMI。

  • 修复了 computemgtd 中的文件句柄泄漏问题。

  • 修复了由于响应中尚不可用而偶尔导致已启动的实例立即终止的争用条件。EC2 DescribeInstances

  • 对于使用 Arm 处理器的实例类型,修复了对 DisableSimultaneousMultithreading 参数的支持。

  • 修复从先前版本升级时 Amazon ParallelCluster API堆栈更新失败的问题。在 EcrImageDeletionLambdaRole 中添加了用于 ListImagePipelineImages 操作的资源模式。

  • 修复了在创建 for Lustre 文件系统时 Amazon ParallelCluster API添加从 Amazon S3 导入或导出所需的缺少权限的问题。FSx

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 7 月 27 日

Amazon ParallelCluster 今年迄今为止仅限文档的更新

Amazon ParallelCluster 仅限文档的更新。

2022 年 7 月 6 日

Amazon ParallelCluster 3.1.4 版本已发布

Amazon ParallelCluster 3.1.4 版本已发布。

增强功能:

更改:

  • Upgrade Slurm 到版本 21.08.8-2。

  • 构建 Slurm 在JWT支持下。

  • 传递现有的 PlacementGroup/Id 时不需要将 PlacementGroup/Enabled 设置为 true

  • lambda:TagResource添加到 ParallelCluster API堆栈ParallelClusterUserRole中用于创建集群和创建映像。

错误修复:

  • 修复了使用带 --filters 选项的 export-cluster-logs 命令时导出集群日志的功能。

  • 修复 Amazon Batch Docker 入口点以使用/home共享目录来协调 Multi-node-Parallel任务执行。

  • 设置时重置节点地址 Slurm 将不健康的静态节点关闭以避免将容量不足的静态节点视为引导故障节点。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 5 月 16 日

Amazon ParallelCluster 3.1.3 版本已发布

Amazon ParallelCluster 3.1.3 版本已发布。

增强功能:

  • 在创建HOME目录的同时执行SSH密钥创建,例如,在SSH登录期间、切换到其他用户以及以其他用户身份执行命令时。

  • 在配置参数 DirectoryService/中添加对两者FQDN以及可LDAP分辨名称的支持DomainName。新验证器现在会检查这两种语法。

  • 部署在头节点上的新update_directory_service_password.sh脚本支持手动更新SSSD配置中的 Active Directory 密码。密码由 a Amazon Secrets Manager s 从集群配置中检索。

  • 添加对在没有默认设置的环境中部署API基础架构的支持VPC。

更改:

  • 在 x86_64 官方版本中禁用更深层次的 C 状态,AMIs并通过build-image命令AMIs创建,以保证高性能和低延迟。

  • 操作系统程序包更新和安全修复。

  • 将 Amazon Linux 2 基础映像更改为AMIs与内核 5.10 配合使用。

错误修复:

  • 由于新的 Image Builder 政策,在成功构建映像DELETE_FAILED后修复构建EC2映像堆栈。

  • 修复配置参数 DirectoryService/DomainAddr转换为 ldap_uri SSSD 属性时该属性包含多个域名地址。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub

2022 年 4 月 20 日

Amazon ParallelCluster 3.1.2 版本已发布

Amazon ParallelCluster 3.1.2 版本已发布。

更改:

  • Upgrade Slurm 到版本21.08.6(从21.08.5)。

错误修复:

  • 修复了在没有互联网访问权限的子网中部署集群时在计算节点上更新 /etc/hosts 文件的问题。

  • 修复了计算节点引导,在加入集群之前将等待临时驱动器初始化完成。

有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包的CHANGELOG文件。 GitHub

2022 年 3 月 2 日

Amazon ParallelCluster 3.1.1 版本已发布

Amazon ParallelCluster 3.1.1 版本已发布。

  • 通过与通过 Amazon Directory Service托管的 Active Directory (AD) 域集成,添加了对多用户集群环境的支持。

  • 在集群配置文件中添加了对 UseEc2Hostnames 的支持。如果设置为 true,则使用亚马逊的EC2默认主机名(例如 ip-1-2-3-4)作为计算节点。

  • 添加了对在没有互联网访问权限的子网中创建集群的支持。

  • 添加了对每个队列包含多种计算实例类型的支持。

  • 添加对GPU日程安排的支持 Slurm 在有NVIDIA卡牌的ARM实例上。

  • 将 ()、cluster-name (-n)、region (-r) 和cluster-configuration/image-idimage-configuration(-i-c) 的缩写标志添加到中。 Amazon ParallelCluster CLI

  • 添加对 Lustre AutoImportPolicy参数NEW_CHANGED_DELETED选项FSx的支持。

  • 为计算节点使用的EC2LaunchTemplates资源添加parallelcluster:compute-resource-name标签。

  • 改进了在集群中创建的安全组,在为某些头节点和/或队列指定 SecurityGroups 参数的情况下,允许来自自定义安全组的入站连接。

  • 为安装NVIDIA驱动程序和CUDA库ARM。

更改:

  • Upgrade Slurm 到版本21.08.5(从20.11.8)。

  • Upgrade Slurm 插件到版本21.08(从20.11)。

  • 升级NICEDCV到版本2021.3-11591(从2021.1-10851)。

  • 将NVIDIA驱动程序升级到版本470.103.01(从470.57.02)。

  • 将NVIDIA结构管理器升级到版本470.103.01(从470.57.02)。

  • 将 CUDA 升级到版本 11.4.4(从 11.4.0)。

  • 英特尔MPI已更新至 2021 版更新 4(从 2019 年版本更新 8 更新)。有关更多信息,请参阅英特尔® MPI 库 2021 年更新 4

  • 将 PMIx 升级到版本 3.2.3(从 3.1.5)。

  • 删除了将失败的计算节点转储到 /home/logs/compute。计算节点日志文件在 Amazon EC2 控制台日志 CloudWatch 和控制台日志中均可用。

  • 启用潜在抑制 SlurmQueuesComputeResources 长度验证器。

  • 在 Amazon Linux 2 上禁用实例启动时的程序包更新。

  • 在构建 Amazon ParallelCluster 自定义图像时禁用 Amazon EC2 ImageBuilder 增强版图像元数据。

  • cloud-init数据源显式设置为。EC2这可节省 Ubuntu 和 CentOS 平台的启动时间。

  • 在计算实例集启动模板名称中使用计算资源名称而不是实例类型。

  • 将 stderr 和 stdout 重定向到CLI日志文件,以防止 pcluster 输出中出现不需要的文本。CLI

  • 将配置/安装食谱移动到从主程序调用的单独说明书中。现有的入口点保持不变,并且向后兼容。

  • 在AMI构建期间下载英特尔HPC平台的依赖关系,以避免在集群创建期间联系互联网。

  • 配置 Slurm 节点时不从计算资源名称中删除 -

  • 请勿GPUs在中配置 Slurm 未安装NVIDIA驱动程序时。

  • 修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。

  • 修复了未指定前缀时的集群日志导出问题,以前导出为 None 前缀。

  • 修复了集群更新失败时不执行回滚的问题。

  • 修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。

  • 修复了 HeadNodeRootVolume 架构,如果指定了不支持的 KmsKeyId,则会引发错误。

  • 修复 Amazon FSx 缺少要在 CloudWatch 控制面板中显示的指标。

  • 修复了 EfaSecurityGroupValidator。以前,当提供并启用自定义安全组时,可能会产生错误的EFA故障。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 2 月 10 日

Amazon ParallelCluster 3.0.3 版本已发布

Amazon ParallelCluster 3.0.3 版本已发布。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub

2022 年 1 月 17 日

Amazon ParallelCluster 3.0.2 版本已发布

Amazon ParallelCluster 3.0.2 版本已发布。

Elastic Fabric Adapter 安装程序升级到 1.14.1

  • EFA配置:efa-config-1.9-1(来自efa-config-1.9

  • EFA个人资料:efa-profile-1.5-1(来自efa-profile-1.5

  • EFA内核模块:efa-1.14.2(来自efa-1.13.0

  • RDMA核心:rdma-core-37.0(来自rdma-core-35

  • libfabric:libfabric-1.13.2(从 libfabric-1.13.0

  • 打开MPI:openmpi40-aws-4.1.1-2(无变化)

GPUDirectRDMA如果实例类型支持,则始终处于启用状态。GdrSupport配置选项无效。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub

2021 年 11 月 5 日

Amazon ParallelCluster 3.0.1 版本已发布

Amazon ParallelCluster 3.0.1 版本已发布。

集群配置迁移工具

  • 客户现在可以将其集群配置从 Amazon ParallelCluster 版本 2 格式迁移到YAML基于 Amazon ParallelCluster 版本 3 的格式。有关更多信息,请参阅 pcluster3-config-converter

可以停止头节点

  • 停止计算队列后,可以使用 Amazon EC2 控制台或 stop- Amazon CLI instances 命令停止头节点,然后再重新启动。

默认从~/.aws/config文件 Amazon Web Services 区域 读取

  • 对于该pcluster命令,如果未在配置文件、环境或命令行中指定,则使用~/.aws/config文件[default]部分的region设置中 Amazon Web Services 区域 指定的默认值。 Amazon Web Services 区域

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub

2021 年 10 月 27 日

Amazon ParallelCluster 3.0.0 版本已发布

Amazon ParallelCluster 3.0.0 版本已发布。

支持通过 Amazon API Gateway 进行集群管理

  • 现在,客户可以通过 Amazon API Gateway 通过HTTP终端节点管理和部署集群。这为脚本化或事件驱动的工作流程开辟了新的可能性。

    为了与之兼容,还重新设计了 Amazon ParallelCluster 命令行界面 (CLI),API并包括一个新的JSON输出选项。这项新功能使客户也可以使用实现类似的CLI构造块功能。

改进了自定义AMI创建

  • 现在,客户可以使用更强大的流程来AMIs使用 EC2 Image Builder 创建和管理自定义内容。现在AMIs可以通过单独的 Amazon ParallelCluster 配置文件管理自定义,也可以在pcluster build-image命令行界面中使用 Amazon ParallelCluster 命令创建。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub

2021 年 9 月 10 日