发布说明和文档历史记录 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

发布说明和文档历史记录

下表描述了《Amazon ParallelCluster 用户指南》的主要更新和新功能。我们还经常更新文档来处理发送给我们的反馈意见。

Amazon ParallelCluster
更改 描述 日期

Amazon ParallelCluster 3.12.0 版本已发布

要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

增强功能:

  • 添加新的构建映像配置部分Build/Installation以打开/关闭 NVIDIA 软件和 Lustre 客户端安装。默认情况下,NVIDIA 软件虽然包含在官方版本中 ParallelCluster AMIs,但并未由安装build-image。默认情况下,已安装 Lustre 客户端。

  • 现在,CLI 命令export-cluster-logsexport-image-logs可以默认将日志导出到默认 ParallelCluster 存储桶或 customs3Bucket(如果在配置中指定)。

  • 在 ARM 实例上将 Amazon DCV 支持扩展到 Ubuntu2204。

更改:

  • 将 NVIDIA 驱动程序升级到版本 550.127.08(从 550.90.07 开始)。这解决了 NVIDIA 的一个已知问题。有关更多信息,请参阅 NVIDIA 数据中心文档中的已知问题

  • 将 Amazon DCV 升级到版本2024.0-18131

    • server:2024.0-18131-1

    • xdcv:2024.0.631-1

    • gl:2024.0.1078-1

    • web_viewer:2024.0-18131-1

  • 将 EFA 安装程序升级到 1.36.0

    • Efa-driver:efa-2.13.0-1

    • Efa-config:efa-config-1.17-1

    • Efa-profile:efa-profile-1.7-1

    • Libfabric-aws:libfabric-aws-1.22.0-1

    • Rdma-core:rdma-core-54.0-1

    • Open MPI:openmpi40-aws-4.1.7-1openmpi50-aws-5.0.5

  • 失败时自动重启 slurmctld。

  • 升级 mysql-community-client到 8.0.39 版。

  • 移除对 Python 3.7 和 3.8 的支持,它们已经过时了。

错误修复:

  • 修复了集群更新期间未检测到自定义操作脚本序列更改的问题。

  • 为 Amazon ParallelCluster API 添加缺少的权限,以便为 Elastic Load Balancing 和 Auto Scaling 创建服务关联角色,这些角色是部署登录节点所必需的。

  • 修复了我们在管理卷时获取区域的方式中的一个问题,使其能够正确处理本地区域。

  • 修复了在更新AccessPointIds期间添加 EFS 文件系统会失败的问题。

  • 修复了在使用 PCAPI 时,更新非类型的参数时集群更新可能失败的问题String(例如,MaxCount)。

  • 挂载外部 OpenZFS 时,不再需要为端口 111、2049、20001、20002、20003 设置出站规则。

2024 年 12 月 19 日

Amazon ParallelCluster 3.11.1 版本已发布

功能:

  • Pyxis 现在默认为禁用状态,因此必须按照产品文档中的说明手动启用。

  • 在 Lambd ParallelCluster a 层中将 Python 运行时升级到版本 3.12。

  • 不再将 setuptools 的版本固定为 70.0.0 之前的版本。

  • 将 libjwt 升级到 1.17.0 版本。

  • 完整更改日志

错误修复

  • 修复了我们在中配置 Pyxis Slurm 插件的方式中可能 ParallelCluster 导致作业提交失败的问题。

  • 通过在公共策略模板中添加登录节点所需的缺少权限,修复了导致登录节点配置中部署失败的问题。 https://github.com/aws/aws-parallelcluster/issues/6483

2024 年 10 月 21 日

Amazon ParallelCluster 3.11.0 版本已发布

增强功能

  • 添加对登录节点上的自定义操作的支持。

  • 允许 DCV 连接到登录节点。

  • 添加对 ap-southeast-3 区域的支持。

  • 向登录节点网络负载均衡器添加安全组。

  • 为登录节点添加AllowedIps配置。

  • 添加新配置SharedStorage/EfsSettings/AccessPointId以为装载指定可选的 EFS 接入点

  • 允许最多 10 个登录节点池。

  • 在官方 pcluster 中安装 enroot 和 pyxis AMIs

更改

  • [B REAKING] API DescribeCluster 和 CLI 命令返回的loginNodes字段describe-cluster已从字典更改为数组,以支持多个登录节点池。此更改破坏了向后兼容性,使这些操作与使用旧版本部署的集群不兼容。

  • 将 Slurm 升级到 23.11.10(从 23.11.7 开始)。

  • 将 Pmix 升级到 5.0.3(从 5.0.2 开始)。

  • 将 EFA 安装程序升级到 1.34.0

    • Efa-driver:efa-2.10.0-1

    • Efa-config:efa-config-1.17-1

    • Efa-profile:efa-profile-1.7-1

    • Libfabric-aws:libfabric-aws-1.22.0-1

    • Rdma-core:rdma-core-52.0-1

    • Open MPI:openmpi40-aws-4.1.6-3openmpi50-aws-5.0.3-11

  • 将 NVIDIA 驱动程序升级到版本 550.90.07(从 535.183.01 开始)。

  • 将 CUDA 工具包升级到版本 12.4.1(从 12.2.2 开始)。

  • 将 Python 升级到 3.9.20(从 3.9.19 开始)。

  • 将英特尔 MPI 库升级到 2021.13.1.769(从 2021.12.1.8 开始)。

错误修复

  • 修复验证器,EfaPlacementGroupValidator使其在使用容量块时不建议配置置放群组。

  • 确保 FSx 按照安全组规则创建 for Lustre 文件系统,修复偶尔出现的集群创建失败。

  • 修复启用置放群组时集群删除失败的问题。

  • 修复了在限制 SSH 访问时登录节点被标记为不健康的问题。

  • 修复后retrieve_supported_regions,它可以获得正确的 S3 网址。

  • 修复describe_images为使用分页。

  • No route tables found修复了在/ LoginNodesNetworking/ SubnetIds 中指定默认 VPC 子网时的错误。

2024 年 9 月 26 日

Amazon ParallelCluster 3.10.1 版本已发布

错误修复

  • 修复中国区域的镜像构建失败。

2024 年 7 月 8 日

Amazon ParallelCluster 3.10.0 版本已发布

增强功能:

  • 添加新的配置部分Scheduling/SlurmSettings/ExternalSlurmdbd以将集群连接到外部 Slurmdbd。

  • 允许在隔离的网络中运行构建映像。

  • 添加对亚马逊 Linux 2023 的支持。

  • 添加对 price-capacity-optimized as 的支持AllocationStrategy

  • 添加验证器以防止使用带有容量块的置放组。

更改:

  • 不再支持 CentOS 7。

  • 将 Cinc Client 从 18.2.7 升级到 18.4.12 版本。

  • 将 munge 升级到版本 0.5.16(从 0.5.15 开始)。

  • 将 Pmix 升级到 5.0.2(从 4.2.9 开始)。

  • 升级第三方说明书依赖项:

    • apt-7.5.22(来自 apt-7.5.14)

    • openssh-2.11.12(来自 openssh-2.11.3)

  • 移除第三方食谱:selinux-6.1.12。

  • 将 EFA 安装程序升级到 1.32.0

    • Efa-driver:efa-2.8.0-1

    • Efa-config:efa-config-1.16-1

    • Efa-profile:efa-profile-1.7-1

    • Libfabric-aws:libfabric-aws-1.21.0-1

    • Rdma-core:rdma-core-50.0-1

    • Open MPI:openmpi40-aws-4.1.6-3openmpi50-aws-5.0.2-12

  • 将 NVIDIA 驱动程序升级到版本 535.183.01(从 535.154.05 开始)。

  • 将 Python 升级到 3.9.19(从 3.9.17 开始)。

  • 将英特尔 MPI 库升级到 2021.12.1.8(从 2021.9.0.43482 起)。

错误修复:

  • 将数据存储库关联配置修复为AutoExportPolicyAutoImportPolicy选配置。

  • 修复了集群删除期间的一个问题,该问题现在可以在实例处于关闭或终止状态时完成计算队列清理。这是为了避免终止周期较长的实例类型的集群删除失败。

  • 允许在集群配置Monitoring部分启用 cloudwatch 控制面板并禁用警报。

  • 允许 ParallelCluster 自定义资源使用禁止验证器。PclusterCluster/SuppressValidators

  • 将其删除,/etc/profile.d/pcluster.sh这样就不会在每次用户登录时执行该操作,cfn_bootstrap_virtualenv也不会将其添加到 PATH 环境变量中。

  • 通过将字段failureReason替换为DescribeCluster响应来修复 ParallelCluster API 规范。failures

  • 通过添加缺失的 CloudFormation 堆栈状态来修复 ParallelCluster API 规范:IMPORT_*REVIEW_IN_PROGRESSUPDATE_FAILED

  • 修复了阻止集群更新包含传输中加密的 EFS 文件系统的问题。

  • 修复了在将 EFS 用于共享内部数据时,slurmctld 和 slurmdbd 服务无法在头节点重启时重新启动的问题。

  • 在 Ubuntu 系统上,删除与来自 Parallelcluster 的配置冲突的云初始化日志文件的默认 logrotate 配置。

  • 使用 RHEL 8.10 或更高版本修复图像构建失败。

2024 年 6 月 27 日

Amazon ParallelCluster 3.9.3 版本已发布

要进行升级,请键入 sudo pip install --upgrade aws-parallelcluster

功能:

  • us-iso-east-1 中增加了对 FSx Lustre 作为共享存储类型的支持。

错误修复:

  • 从 Slurm 配置的 SlurmctldParameters 中移除 cloud_dns,以避免出现 Slurm 扇出问题。

    这不是必需的,因为我们是在实例启动时设置 IP 地址的。

2024 年 6 月 19 日

Amazon ParallelCluster 3.9.2 版本已发布

功能:

  • 将 Slurm 升级到 23.11.7(从 23.11.4 起)。

  • 有关更多详细信息,请参阅CHANGELOG3.9.2上的 GitHub。

2024 年 5 月 28 日

Amazon ParallelCluster 3.9.1 版本已发布

要进行升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

错误修复

  • 在更新集群操作中卸载文件系统时,移除对共享存储 mountdir 的递归删除。

2024 年 4 月 11 日

Amazon ParallelCluster 3.9.0 版本已发布

要进行升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster

增强功能:

  • 添加配置参数 DeploymentSettings/DefaultUserHome,使用户能够将默认用户的主目录移到 /local/home 而不是 /home(默认)。

  • 允许更新 MinCountMaxCountQueueComputeResource 配置参数,而无需停止计算实例集。现在可以通过将 Scheduling/SlurmSettings/QueueUpdateStrategy 设置为 TERMINATE 来更新它们。 Amazon ParallelCluster 只终止通过集群更新调整集群容量时移除的节点。

  • 允许在 FileCache 不替换计算和登录队列的情况下更新 Efs FsxLustre FsxOntap、、 FsxOpenZfs 和类型的外部共享存储。

  • 添加对的支持 RHEL9。

  • 增加了对 Rocky Linux 9 的支持,作为通过 build-image 过程创建的 CustomAmi。目前还没有官方的 Amazon ParallelCluster Rocky9 Linux AMI 可用。

  • CommunicationParameters从 “自定义 Slurm 设置” 拒绝列表中移除。

  • 在支持 OSes中添加DeploymentSettings/DisableSudoAccessForDefaultUser参数以禁用默认用户的 sudo 访问权限。

  • 对 FSx 于 Lustre 文件系统的更改由 ParallelCluster以下人员创建:将 Lustre 服务器版本更改为 2.15.

  • 通过 ['cluster']['nvidia']['kernel_open'] cookbook 节点属性,增加在构建 AMI 时选择开放源代码和封闭源代码 Nvidia 驱动程序的可能性。

  • * 添加 clustermgtd 配置选项ec2_instance_missing_max_count以允许可配置的重试次数,以实现最终的 A EC2 mazon 描述实例与运行的实例保持一致。

更改

  • 将 Slurm 升级到 23.11.4(从 23.02.7 开始)。

  • 将 NVIDIA 驱动程序升级到版本 535.154.05。

  • 在 pcluster CLI 中添加对 Python 3.11、3.12 的支持,以及。 aws-parallelcluster-batch-cli

  • 使用 Amazon EC2 DescribeInstances 响应NetworkCardIndex列表中的网卡索引构建网络接口,而不是遍历MaximumNetworkCards范围。

  • 使用 P3、G3、P2 和 G2 类型实例时,集群创建失败,因为其 GPU 架构与 3.8.0 版中引入的开源 Nvidia 驱动程序(OpenRM)不兼容。

  • 升级第三方 cookbook 依赖项:nfs-5.1.2(从 nfs-5.0.0 升级)

  • 将 EFA 安装程序升级到 1.30.0.

    • Efa-driver:efa-2.6.0-1

    • Efa-config:efa-config-1.15-1

    • Efa-profile:efa-profile-1.6-1

    • Libfabric-aws:libfabric-aws-1.19.0

    • Rdma-core:rdma-core-46.0-1

    • Open MPI:openmpi40-aws-4.1.6-2openmpi50-aws-5.0.0-11

  • 将 NICE DCV 升级到版本 2023.1-16388.

    • server:2023.1.16388-1

    • xdcv:2023.1.565-1

    • gl:2023.1.1047-1

    • web_viewer:2023.1.16388-1

错误修复

  • 修复以 Active Directory 用户身份从登录节点提交作业时会失败的问题。该问题是由于在头节点上与外部 Active Directory 集成的配置不完整造成的。

  • 重构在 CloudFormation 模板 parallelclusser-policies.yaml 中定义的 IAM 策略,以防止 ParallelCluster 因策略超过 IAM 限制而导致 API 部署失败。

  • 修复当头节点写入密钥的时间超过预期时,登录节点启动失败的问题。

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2024 年 3 月 5 日

Amazon ParallelCluster 3.8.0 版本已发布

Amazon ParallelCluster 3.8.0 版本已发布。

增强功能:

  • 添加对 Amazon 机器学习 EC2 容量块的支持。

  • 增加了对 Rocky Linux 8 的支持,作为通过 build-image 过程创建的 CustomAmi。目前还没有官方的 Amazon ParallelCluster Rocky8 Linux AMI 可用。

  • 添加Scheduling/ScalingStrategy参数以控制启动 Slurm 计算节点的 Amazon EC2 实例时要使用的集群扩展策略。可能的值为 all-or-nothinggreedy-all-or-nothingbest-effort,默认值为 all-or-nothing

  • 添加HeadNode/SharedStorageType参数以使用 EFS 存储,而不是从头节点根卷导出 NFS 来存储集群内共享文件系统资源:Intel ParallelCluster、Slurm 和数据。/home此增强功能减少了头节点联网的负载。

  • 允许通过配置文件SharedStorage部分/home作为 EFS 或 FSx 外部共享存储进行安装。

  • 添加新参数SlurmSettings/MungeKeySecretArn以允许使用来自 Secrets Manager 的外部用户定义的 MUNGE Amazon 密钥。

  • 添加Monitoring/Alarms/Enabled参数以切换集群的 Amazon CloudWatch 警报。

  • 添加头节点警报以监控 Amazon 运行 EC2 状况检查、CPU 利用率和头节点的整体状态,并将其添加到使用集群创建的 CloudWatch 控制面板中。

  • 将 as 用于托管 Lustre 时PERSISTENT_2,添加DeploymentType对数据存储库关联 FSx 的支持。

  • 添加Scheduling/SlurmSettings/Database/DatabaseName参数以允许用户为数据库服务器上用于 Slurm 记账的数据库指定自定义名称。

  • 在计算资源中配置 CapacityReservationTarget/CapacityReservationId 时,将 InstanceType 作为可选配置参数。

  • 增加为 Amazon ParallelCluster API 创建的 IAM 角色和策略指定前缀的可能性。

  • 增加了为由 Amazon ParallelCluster API 创建的 IAM 角色和策略指定要应用的权限边界的可能性。

更改

  • 将 Slurm 升级到 23.02.7(从 23.02.6 开始)。

  • 将 NVIDIA 驱动程序升级到版本 535.129.03。

  • 将 CUDA 工具包升级到版本 12.2.2。

  • 使用开源 NVIDIA GPU 驱动程序(OpenRM)作为 Linux 的 NVIDIA 内核模块,而不是 NVIDIA 封闭源代码模块。

  • 移除 Slurm 恢复程序中对all_or_nothing_batch配置参数的支持,转而使用新的Scheduling/ScalingStrategy集群配置。

  • 将集群警报命名约定更改为“[cluster-name]-[component-name]-[metric]”。

  • 将 ADC 区域中根卷和附加卷的默认 EBS 卷类型从 gp2 更改为 gp3。

  • API 的可选权限边界现已应用于 Amazon ParallelCluster API 基础设施创建的每个 IAM 角色。

    • 将 EFA 安装程序升级到 1.29.1

    • Efa-driver:efa-2.6.0-1

    • Efa-config:efa-config-1.15-1

    • Efa-profile:efa-profile-1.5-1

    • Libfabric-aws:libfabric-aws-1.19.0-1

    • Rdma-core:rdma-core-46.0-1

    • Open MPI:openmpi40-aws-4.1.6-1

  • 除了使用 2.3.1 版本的 Centos 7 之外 OSes,所有支持版本都升级 GDRCopy 到 2.4 版。

  • aws-cfn-bootstrap 升级到版本 2.0-28。

  • 在中添加对 Python 3.10 的 aws-parallelcluster-batch-cli支持。

错误修复

  • 修复了在修改计算资源中声明的实例类型列表时,集群更新回滚后扩展配置不一致的问题。

  • 修复了通过集群配置文件与外部 LDAP 服务器集成的集群中切换无 root 权限用户时的用户 SSH 密钥生成问题。

  • 修复了设置时禁用 Slurm 省电模式的问题。ScaledownIdletime = -1

  • 修复 Slurm Accounting update_slurm_database_password.sh 脚本中指向 Slurm 安装目录的硬编码路径。

2023 年 12 月 19 日

Amazon ParallelCluster 3.7.2 版本已发布

Amazon ParallelCluster 3.7.2 版本已发布。

更改:

  • 将 Slurm 升级到 23.02.6。

2023 年 10 月 25 日

Amazon ParallelCluster 3.7.1 版本已发布

Amazon ParallelCluster 3.7.1 版本已发布。

更改:

  • 将 Slurm 升级到 23.02.5(从 23.02.4 开始)。

    • 将 Pmix 升级到 4.2.6(从 3.2.3 升级)。

    • 将 libjwt 升级到 1.15.3(从 1.12.0 升级)。

  • 将 EFA 安装程序升级到 1.26.1,修复 P5 中的 RDMA 写入数据问题。

    • Efa-driver:efa-2.5.0-1

    • Efa-config:efa-config-1.15-1

    • Efa-profile:efa-profile-1.5-1

    • Libfabric-aws:libfabric-aws-1.18.2-1

    • ERdma-核心:rdma-core-46.0-1

    • Open MPI:openmpi40-aws-4.1.5-4

2023 年 9 月 22 日

Amazon ParallelCluster 3.7.0 版本已发布

Amazon ParallelCluster 3.7.0 版本已发布。

增强功能:

  • Support 使用配置 YAML 文件在计算资源中 Amazon ParallelCluster 配置静态和动态节点优先级。

  • 增加了对 Ubuntu 22 的支持。默认情况下不支持 RSA 密钥。

  • 添加了队列配置设置 JobExclusiveAllocation,用于在任何给定时间在分区中以独占模式将节点分配给单个作业。

  • 允许在创建集群和更新集群时覆盖 aws-parallelcluster-node 程序包。对于头节点,这适用于集群更新。仅用于开发目的。

  • 避免在计算节点上启动 NFS 服务器。

  • 添加了对登录节点的支持。

  • 当为 Slurm 计算资源指定了多种实例类型时,允许进行基于内存的调度。

  • 添加了支持,允许将现有 Amazon 文件缓存作为共享存储进行挂载。

更改:

  • 默认情况下,将 Slurm 动态节点的优先级(权重)分配为 1000。通过这样做,Slurm 可以将闲置的静态节点优先于空闲的动态节点。

  • 使aws-parallelcluster-node守护程序只能处理 Amazon ParallelCluster 托管的 Slurm 分区。

  • EFS-utils 监视器轮询间隔增加到 10 秒。当 EncryptionInTransit 设置为 true 时(这是导致监视器运行的唯一条件),此更改适用。

  • 将 EFA 安装程序升级到 1.25.1

    • Efa-driver:efa-2.5.0-1(从 efa-2.1.1g

    • Efa-config:efa-config-1.15-1(从 efa-config-1.13-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.18.1-0(从 libfabric-aws-1.17.1-1

    • Rdma-core:rdma-core-46.0-1(从 rdma-core-43.0-1

    • Open MPI:openmpi40-aws-4.1.5-4(从 openmpi40-aws-4.1.5-1

  • 将 Slurm 升级到 23.02.4 版。

  • 将 Imds/ 的默认值ImdsSupport 从 v1.0 更改为 v2.0。

  • 弃用 Ubuntu 18。

  • 将默认根卷大小更新为 40 GB,以补偿对 Centos 7 的限制。

  • 限制头节点内对 file /tmp/wait _condition_handle.txt 的权限,这样只有 root 用户才能读取它。

  • 创建一个 Slurm 分区节点列表映射 JSON 文件,供节点程序包进程守护程序用来识别 PC 托管的 Slurm 分区和节点列表。

  • 将 NVIDIA 驱动程序升级到版本 535.54.03。

  • 将 CUDA 库升级到版本 12.2.0。

  • 将 NVIDIA Fabric Manager 升级到 nvidia-fabricmanager-535。

  • 将 ARM PL 升级到版本 23.04.1,仅适用于 Ubuntu 22.04。

  • 将 NICE DCV 升级到版本 2023.0-15487

    • Server:2023.0.15487-1

    • xdcv:2023.0.551-1

    • gl:2023.0.1039-1

    • web_viewer:2023.0.15487-1

错误修复:

  • ScaledownIdletime 值添加验证功能,以防止设置的值低于 -1。

  • 修复了在启用 DCV 的 GPU 实例上使用 Ubuntu 深度学习 AMI 创建集群失败的问题。

  • 修复了使用创建 ParallelCluster CloudFormation 自定义资源提供商时导致创建悬而未决的 IAM 策略的问题 CustomLambdaRole。

  • 修复了使用等于 TrueSlurmSettings/Dns/UseEc2Hostnames 时导致具有多个网络接口的实例上的计算节点 DNS 名称不一致的问题

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 8 月 30 日

仅文档发布

Amazon ParallelCluster 第 3 版特定用户指南已发布。

仅文档发布:

  • Amazon ParallelCluster 版本 3 有自己的单独用户指南。

2023 年 7 月 17 日

Amazon ParallelCluster 版本 3.6.1 已发布

Amazon ParallelCluster 3.6.1 版本已发布。

更改:

  • clustermgtd如果将计算节点添加到多个 Slurm 分区,请避免出现重复的节点。

错误修复:

  • 删除根卷设备名称(/dev/sda1/dev/xvda)的硬编码,然后从期间 AMIs 使用的中检索它create-cluster

  • 修复使用ElasticIp设置为的 CloudFormation 自定义资源时集群创建失败的问题True

  • 修复使用包含大型配置文件的 Amazon CloudFormation 自定义资源时集群创建和更新失败的问题。

  • 修复了无法在 Ubuntu 上禁用 ptrace 保护并且不允许在 libfabric 中进行跨内存附加 (CMA) 的问题。

  • 修复了使用多个实例类型且未返回任何实例时的快速容量不足故障转移逻辑。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 7 月 5 日

Amazon ParallelCluster 3.6.0 版本已发布

Amazon ParallelCluster 3.6.0 版本已发布。

文档:

增强功能:

  • 添加对的支持 RHEL8。

  • 添加用于创建和管理集群的Amazon CloudFormation 自定义资源 CloudFormation。

  • 在配置 YAML 文件中添加对自定义集群 Slurm Amazon ParallelCluster 配置的支持。

  • 在支持 LUA 的情况下构建 Slurm。

  • 将每个集群的最大队列数限制从 10 增加到 50。每个队列最多可以有 50 个计算资源。每个集群最多可以有 50 个计算资源。

  • 添加了支持,允许为 OnNodeStartOnNodeConfiguredOnNodeUpdated 参数中配置的事件指定一系列多个自定义操作脚本

  • 添加了新的配置部分 HealthChecks/Gpu,用于在运行作业之前在计算节点上应用 GPU 运行状况检查。

  • SlurmQueuesSlurmQueues/ComputeResources 配置中增加了对 Tags 的支持。

  • Monitoring 配置中增加了对 DetailedMonitoring 的支持。

  • 在 Amazon ParallelCluster CloudWatch 仪表板中添加mem_used_percent头节点内存和根卷磁盘利用率跟踪disk_used_percent指标,并设置警报以监控这些指标。

  • 对 Amazon ParallelCluster 托管的 日志添加了日志轮换支持。

  • CloudWatch 控制面板中跟踪常见的计算节点错误和动态节点最长空闲时间。

  • 在创建 SSL 套接字时,强制 DCV Authenticator Server 至少使用 TLS-1.2 协议。

  • 在除 aarch64 centos7alinux2 之外的所有支持的操作系统上安装 NVIDIA Data Center GPU Manager (DCGM) 程序包。

  • 默认加载内核模块 nvidia-uvm,为 CUDA 驱动程序提供统一虚拟内存 (UVM) 功能。

  • 安装 NVIDIA 持久性进程守护程序作为一项系统服务。

更改:

  • 将 Slurm 升级到版本23.02.2(从版本22.05.8开始)。

  • 将 munge 升级到版本 0.5.15(从版本 0.5.14)。

  • 将 Slurm 设置为 30 TreeWidth

  • 将 Slurm prologepilog配置分别设置为目标目录/opt/slurm/etc/scripts/prolog.d/和。/opt/slurm/etc/scripts/epilog.d/

  • 将 Slurm 设置为 3 分钟BatchStartTimeout,以便在注册计算节点期间运行Prolog脚本。

  • 将 CloudWatch 日志RetentionInDays的默认值从 14 天增加到 180 天。

  • 将 EFA 安装程序升级到 1.22.1

    • Dkms:2.8.3-2

    • Efa-driver:efa-2.1.1g(无变化)

    • Efa-config:efa-config-1.13-1(无变化)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.17.1-1(从 libfabric-aws-1.17.0-1

    • Rdma-core:rdma-core-43.0-1(无变化)

    • Open MPI:openmpi40-aws-4.1.5-1(无变化)

  • 在 Amazon Linux 2 上将 Lustre 客户端版本升级到 2.12。Lustre 客户端 2.12 已经安装在 Ubuntu 20.04、18.04 和 CentOS >= 7.7 上。

  • 在 CentOS 7.6 上将 Lustre 客户端版本升级到 2.10.8

  • 将 NVIDIA 驱动程序升级到版本 470.182.03(从版本 470.141.03)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.182.03(从版本 470.141.03)。

  • 将 NVIDIA CUDA Toolkit 升级到版本 11.8.0(从版本 11.7.1)。

  • 将 NVIDIA CUDA 示例升级到版本 11.8.0

  • 将 Intel MPI Library 升级到 2021 年版更新 9(从 2021 年版更新 6)。有关更多信息,请参阅 Intel® MPI Library 2019 更新 9

  • 将 NICE DCV 升级到版本 2023.0-15022(从版本 2022.2-14521)。

    • server:2023.0.15022-1(从版本 2022.2-14521-1)。

    • xdcv:2023.0.547-1(从版本 2022.2.519-1)。

    • gl:2023.0.1027-1(从版本 2022.2.1012-1)。

    • web_viewer:2023.0.15022-1(从版本 2022.2.14521-1)。

  • aws-cfn-bootstrap 升级到版本 2.0-24

  • 升级 CodeBuild 环境在为 Batc Amazon h 集群构建容器镜像时使用的镜像:

    • aws/codebuild/amazonlinux2-x86_64-standard:4.0(从 aws/codebuild/amazonlinux2-x86_64-standard:3.0)。

    • aws/codebuild/amazonlinux2-aarch64-standard:2.0(从 aws/codebuild/amazonlinux2-aarch64-standard:1.0)。

错误修复:

  • 修复 Amazon EFS 和亚马逊 FSx 网络安全组验证器,以避免报告虚假错误。

  • 修复了 Image Builder 在 build-image 操作期间创建的资源缺少标记的问题。

  • 修复了 MaxCount 的更新策略,使其始终对 MaxCount 属性进行数值比较。

  • 修复了具有多个网卡的计算节点实例上的 IP 一致性问题。

  • 修复了StoragePass在执行队列参数更新且未更新 Slurm 记账配置slurm_parallelcluster_slurmdbd.conf时替换的问题。

  • 修复了使用现有 EFS 文件系统创建集群时导致创建虚安全组的问题。

  • 修复了重启 cfn-hup 进程守护程序时导致其失败的问题。

  • 在 Slurm 保护模式下,将带有INVALID_REG标记的动态节点视为引导失败。在 Slurm 注册失败之后,静态节点已被视为引导失败。node_replacement_timeout

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 5 月 22 日

Amazon ParallelCluster 3.5.1 版本已发布

Amazon ParallelCluster 3.5.1 版本已发布。

增强功能:

更改:

  • 将 EFA 安装程序升级到 1.22.0

    • Efa-driver:efa-2.1.1g(从 efa-2.1.1-1

    • Efa-config:efa-config-1.13-1(从 efa-config-1.12-1)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.17.0-1(从 libfabric-aws-1.16.1amzn3.0-1

    • Rdma-core:rdma-core-43.0-1(无变化)

    • Open MPI:openmpi40-aws-4.1.5-1(从 openmpi40-aws-4.1.4-3

    将 NICE DCV 升级到版本 2022.2-14521

    • server:2022.2.14521-1

    • xdcv:2022.2.519-1

    • gl:2022.2.1012-1

    • web_viewer:2022.2.14521-1

错误修复:

  • 修复了在集群更新过程中删除共享 Amazon EBS 卷时因 MountDir/etc/exports 之间的模式匹配而导致的潜在节点启动失败问题。

  • 修复了每次 clustermgtd 迭代时 compute_console_output 日志文件被截断的问题。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 3 月 29 日

Amazon ParallelCluster 3.5.0 版本已发布

Amazon ParallelCluster 3.5.0 版本已发布。

增强功能:

  • 使用 Amazon ParallelCluster UI 访问和管理集群。

  • 在 CloudFormation 模板中添加版本化 Amazon ParallelCluster 策略,供您在工作负载中引用。

  • 添加可与自己的代码一起使用的 Amazon ParallelCluster Python 库。

  • 在计算节点引导失败时向 Amaz CloudWatch on 添加计算节点控制台输出的日志记录。

  • 集群创建失败时向 describe-cluster 输出中添加了包含失败代码和原因的失败字段。

  • 添加了验证器以防止在调用子进程模块时注入恶意字符串。

  • 在配置静态节点时,如果集群状态更改为 PROTECTED,则集群创建将失败。

更改:

  • 升级到 Slurm 版本22.05.8(从版本开始)22.05.7

  • 将 EFA 安装程序升级到 1.21.0

    • Efa-driver:efa-2.1.1-1(从 efa-2.1

    • Efa-config:efa-config-1.12-1(从 efa-config-1.11-1)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.1amzn3.0-1(从 libfabric-aws-1.16.1

    • Rdma-core:rdma-core-43.0-1(从 rdma-core-43.0-2

    • Open MPI:openmpi40-aws-4.1.4-3(无变化)

  • 让 Slurm 控制器日志更加详细,并为 Slurm 省电插件启用额外的日志记录。

错误修复:

  • 启用 Slurm 记账后,通过验证集群名称是否不超过 40 个字符来修复集群数据库创建问题。

  • 修复了在 clustermgtd Amazon EC2 实例状态检查失败时导致通过 Slurm 重启的计算节点被替换的问题。

  • 修复了由于头节点上的 IAM 策略不正确而导致与其他账户共享容量预留的计算节点无法启动的问题。

有关更改的详细信息,请参阅上的 aws-parallelclusteraws-parallelcluster-cookbookaws-parallelcluster-node、和软件包的CHANGELOG文件。aws-parallelcluster-ui GitHub

2023 年 2 月 20 日

Amazon ParallelCluster 3.4.1 版本已发布

Amazon ParallelCluster 3.4.1 版本已发布。

错误修复:

  • 修复了 Slurm 调度器问题,该问题可能导致计算节点内部注册表的更新应用不正确。因此,如果出现此问题, EC2实例可能会变得不可用,或者可能由不正确的实例类型提供支持。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2023 年 1 月 13 日

Amazon ParallelCluster 3.4.0 版本已发布

Amazon ParallelCluster 3.4.0 版本已发布。

增强功能:

  • 增加了对跨多个可用区启动节点的支持,以提高容量可用性。

  • 增加了对为每个队列指定多个子网的支持,以提高容量可用性。

  • I am/中添加新的配置参数 ResourcePrefix,为创建的 IAM 资源的路径和名称指定前缀 Amazon ParallelCluster。

  • 添加新的配置部分 DeploymentSettings/,LambdaFunctionsVpcConfig用于指定 Amazon ParallelCluster Lambda 函数使用的 Vpc 配置。

  • 添加了指定要在集群更新期间在头节点中运行的自定义脚本的功能。使用 Slurm 作为调度器OnNodeUpdated时,可以用 CustomActions/HeadNode/指定脚本。

更改:

  • 取消为现有文件系统创建 Amazon EFS 挂载目标。

  • 使用 amazon-efs-utils 挂载 EFS 文件系统。可以使用传输中加密和 IAM 授权用户来挂载 EFS 文件系统。

  • 在 Cent OS7 和 Ubuntu 上安装 stunnel 5.67 以支持 EFS 传输中加密。

  • 将 EFA 安装程序升级到 1.20.0(从 1.18.0)。

    • Efa-driver:efa-2.1(从 efa-1.16.0-1

    • Efa-config:efa-config-1.11-1(无变化)

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.1(从 libfabric-aws-1.16.0~amzn4.0-1

    • Rdma-core:rdma-core-43.0-2(从 rdma-core-41.0-2

    • Open MPI:openmpi40-aws-4.1.4-3(从 openmpi40-aws-4.1.4-2

  • 将 Slurm 升级到版本 22.05.7(从 22.05.5)。

  • 将 Python 升级到 3.9.163.7.16(从 3.9.153.7.13)。

  • 使用 Slurm22.05.7,处于IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING状态的动态节点不会被视为不健康。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 12 月 22 日

Amazon ParallelCluster 3.3.1 版本已发布

Amazon ParallelCluster 3.3.1 版本已发布。

更改:

  • AMIs 在亚马逊 EC2 弃用两年后,官方 Amazon ParallelCluster 产品现已上市。

  • 将 Amazon ParallelCluster API Lambda 的内存大小增加到 2048,以减少冷启动惩罚并避免超时。

错误修复:

  • 防止替换托管 FSx 的 Lustre 文件系统以及包括计算队列子网 ID 更改在内的集群更新数据丢失。

  • SharedStorage DeletionPolicy 适用于集群更新操作。

有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包CHANGELOG文件。 GitHub

2022 年 12 月 2 日

Amazon ParallelCluster 仅限文档 hpc6id 注意

Amazon ParallelCluster 仅限文档的更新

2022 年 12 月 2 日

Amazon ParallelCluster 3.1.5 版本已发布

Amazon ParallelCluster 3.1.5 版本已发布。

增强功能:

  • 修复了阻止空闲节点终止的 Slurm 问题。

  • 将 EFA 安装程序升级到 1.18.0

    • Efa-driver:efa-1.16.0-1

    • Efa-config:efa-config-1.11-1(从 efa-config-1.9-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1(从 libfabric-1.13.2

    • Rdma-core:rdma-core-41.0-2(从 rdma-core-37.0

    • Open MPI:openmpi40-aws-4.1.4-2(从 openmpi40-aws-4.1.1-2

更改:

  • lambda:ListTagslambda:UntagResource添加到ParallelClusterUserRole用于集群更新的 Amazon ParallelCluster API 堆栈中。

  • 将 Intel MPI Library 升级到 2021 年版更新 6(从 2021 年版更新 4)。有关更多信息,请参阅 Intel® MPI Library 2021 更新 6

  • 将 NVIDIA 驱动程序升级到版本 470.141.03(从 470.103.01)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03(从 470.103.01)。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 11 月 16 日

Amazon ParallelCluster 3.3.0 版本已发布

Amazon ParallelCluster 3.3.0 版本已发布。

增强功能:

  • 使用 Slurm 作为调度器时,添加对计算资源的多实例分配配置的支持。有关更多信息,请参阅使用 Slurm 进行多实例类型分配

  • 增加了对使用更新配置进行集群更新时添加和删除 SharedStorage 的支持。有关更多信息,请参阅共享存储

  • E fs 和FsxLustre共享存储设置添加新的配置参数DeletionPolicy以支持存储保留。

  • 使用新的配置参数 Scheduling/SlurmSettings/Database 添加对 Slurm 记账的支持。有关更多信息,请参阅 Slurm 使用记账。 Amazon ParallelCluster

  • 增加了对按需容量预留(ODCR)和容量预留资源组的支持。有关更多信息,请参阅使用按需容量预留 (ODCR) 启动实例

  • 添加新的配置参数以指定要在集群中支持的 IMDS 版本或在集群中构建映像基础架构,即 I mds/和 build ImdsSupportImds/ImdsSupport、配置。

  • 在/ComputeResources部分添加对网络 SlurmQueues/PlacementGroup的支持。

  • 增加了对具有多个网络接口并且每个设备仅限一个 ENI 的实例的支持。

  • 通过检查附加的安全组中的 CIDR 块,改进了外部 Amazon EFS 文件系统的网络验证。

  • 添加了用于检查配置的实例类型是否支持置放群组的验证器。

  • 将 NFS 线程数配置为 min(256, max(8, num_cores * 4)) 以确保更好的稳定性和性能。

  • 将 NFS 安装移至构建时以减少配置时间。

  • 为部署 Amazon ParallelCluster API 时创建的、用于通知 docker 镜像构建事件的 EcrImageBuilder SNS 主题启用服务器端加密。

更改:

  • 更改 SlurmQueues/网络 //的行为EnabledPlacementGroup现在,它会为每个计算资源创建一个唯一的托管置放群组,而不是为所有计算资源创建一个托管置放群组。

  • 添加对 SlurmQueues/网络/PlacementGroup/名称作为首选命名方法的支持。

  • 将头节点标签从启动模板移动到了实例定义中,以避免在标签更新时替换头节点。

  • 通过 cloud-init 执行的脚本而不是通过启动模板中设置的 CpuOptions 禁用多线程处理。

  • 在 API 基础架构、API Docker 容器和集群 Lambda 资源中将 Python 升级到版本 3.9,将 NodeJS 升级到版本 16。

  • aws-parallelcluster-batch-cli 中删除了对 Python 3.6 的支持。

  • 将 Slurm 升级到版本 22.05.5(从 21.08.8-2)。

  • 将 NVIDIA 驱动程序升级到版本 470.141.03(从 470.129.06)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03(从 470.129.06)。

  • 将 NVIDIA CUDA Toolkit 升级到版本 11.7.1(from 11.4.4)。

  • 将 v Amazon ParallelCluster irtualenvs 中使用的 Python 从3.7.13升级到。3.9.15

  • 将 EFA 安装程序升级到版本 1.18.0。

    • Efa-driver:efa-1.16.0-1(无变化)

    • Efa-config:efa-config-1.11-1from efa-config-1.10-1

    • Efa-profile:efa-profile-1.5-1(无变化)

    • Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1(从 libfabric-aws-1.16.0~amzn2.0-1

    • Rdma-core:rdma-core-41.0-2(从 rdma-core-37.0

    • Open MPI:openmpi40-aws-4.1.4-2(从 openmpi40-aws-4.1.1-2

  • 将 NICE DCV 升级到版本 2022.1-13300(从 2022.0-12760)。

  • Queues 启用 SingleSubnetValidator 抑制。

  • 当节点处于 COMPLETING 状态时不替换 DRAIN 节点,因为 Epilog 可能仍在运行。

错误修复:

  • 修复了 Amazon ParallelCluster ListClusterLogStreams命令中过滤器参数的验证失败的问题,即当传递的过滤器不正确时。

  • 修复了与EfsSettings其他 SharedStorageSharedStorage/参数一起指定FileSystemId时无法验证EfsSettings参数/的问题。以前不包括 FileSystemId

  • 修复了在配置中更改 SharedStorage 的顺序以及进行其他更改时的集群更新问题。

  • 修复UpdateParallelClusterLambdaRole了将日志上传到 Amazon ParallelCluster 的 API CloudWatch。

  • 修复了在执行任何说明书之前安装程序包时 Cinc 不使用本地 CA 证书捆绑包的问题。

  • 修复了在设置 Build:UpdateOsPackages:Enabled:true 后使用 pcluster build-image 升级 ubuntu 时出现的挂起问题。

  • 修复了 YAML 集群配置分析在遇到重复密钥时失败的问题。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 11 月 2 日

Amazon ParallelCluster 添加了仅限文档的 API 参考。

Amazon ParallelCluster 仅限文档的更新

2022 年 10 月 27 日

Amazon ParallelCluster 3.2.1 版本已发布

Amazon ParallelCluster 3.2.1 版本已发布。

增强功能:

  • 改进逻辑,将主机路由表关联到不同的网卡,从而更好地支持带有多个网卡的 Amazon EC2 实例 NICs。

更改:

  • 将 NVIDIA 驱动程序升级到版本 470.141.03。

  • 将 NVIDIA Fabric Manager 升级到版本 470.141.03。

  • 禁用可能对节点性能产生负面影响的 cron 作业任务 man-dbmlocate

  • 将 Intel MPI Library 升级到 2021.6.0.602。

  • 将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。

错误修复:

  • 避免集群配置不可用时 DescribeCluster 失败。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 10 月 3 日

Amazon ParallelCluster 3.2.0 版本已发布

Amazon ParallelCluster 3.2.0 版本已发布。

增强功能:

更改:

  • 将 EFA 安装程序升级到版本 1.17.2。

    • EFA 驱动程序:efa-1.16.0-1

    • EFA 配置:efa-config-1.10-1

    • EFA 配置文件:efa-profile-1.5-1

    • Libfabric:libfabric-aws-1.16.0~amzn2.0-1

    • RDMA 内核:rdma-core-41.0-2

    • Open MPI:openmpi40-aws-4.1.4-2

  • 将 NICE DCV 升级到版本 2022.0-12760。

  • 将 NVIDIA 驱动程序升级到版本 470.129.06。

  • 将 NVIDIA Fabric Manager 升级到版本 470.129.06。

  • 将根卷和其他卷中的默认 EBS 卷类型从 gp2 更改为 gp3。

  • 对 FSx 于 Lustre 文件系统的更改由以下人员创建: Amazon ParallelCluster

    • 将默认部署类型更改为 Scratch_2

    • 将 Lustre 服务器版本更改为 2.12

  • 传递现有的 PlacementGroup/true时,不需要将PlacementGroup/En able d 设置为Id

  • PlacementGroup/Enabled 显式设置为 false 时,不允许设置 PlacementGroup/Id

  • 为 Amazon ParallelCluster创建的所有资源添加标签 parallelcluster:cluster-name

  • 添加lambda:ListTagslambda:UntagResource,由 Amazon ParallelCluster API 堆栈ParallelClusterUserRole用于集群更新。

  • 启用配置参数HeadNode/Imds/Secured后,仅限根用户和集群管理员用户 IPv6 访问权限。IMDS

  • 对于自定义 AMI,请使用 AMI 根卷大小,而不是 ParallelCluster默认的 35 GiB。可以在集群配置文件中更改该值。

  • 当配置参数 Scheduling/SlurmQueues/ComputeResources/SpotPrice 低于所需的最低竞价型请求履行价格时,自动禁用计算实例集。

  • 在更新期间添加或删除某个部分时,在更改集中显示 requested_valuecurrent_value 值。

  • 禁用深度学习中提供的aws-ubuntu-eni-helper服务 AMIs,以避免在配置具有多个网卡的实例configure_nw_interface.sh时发生冲突。

  • 删除了对 Python 3.6 的支持。

  • 在配置具有多个网卡的实例时,将所有网络接口的 MTU 设置为 9001。

  • 配置计算节点 FQDN 时,删除结尾圆点。

  • POWERING_DOWN 中管理静态节点。

  • 不替换 POWER_DOWN 中的动态节点,因为作业可能仍在运行。

  • 只有在更新了集群配置中的 Scheduling 参数时,才会在集群更新时重启 clustermgtdslurmctld 进程守护程序。

  • 更新 slurmctldslurmd systemd 服务文件。

  • 启用配置参数HeadNode/Imds/Secured后,仅允许根用户和集群管理员用户 IPv6 访问 IMDS。

  • 设置 Slurm 配置 AuthInfo=cred_expire=70 以缩短在节点不可用时重新排队的作业在重启之前必须等待的时间。

  • 升级第三方说明书依赖项:

    • apt-7.4.2(从 apt-7.4.0)

    • line-4.5.2(从 line-4.0.1)

    • openssh-2.10.3(从 openssh-2.9.1)

    • pyenv-3.5.1(从 pyenv-3.4.2)

    • selinux-6.0.4(从 selinux-3.1.1)

    • yum-7.4.0(从 yum-6.1.1)

    • yum-epel-4.5.0(从 yum-epel-4.1.2)

错误修复:

  • 修复构建自定义 AMI 时跳过 Amazon ParallelCluster 验证和测试步骤的默认行为。

  • 修复了 computemgtd 中的文件句柄泄漏问题。

  • 修复了偶尔导致已启动的实例因响应中尚不可用而立即终止的 EC2 DescribeInstances 争用条件。

  • 对于使用 Arm 处理器的实例类型,修复了对 DisableSimultaneousMultithreading 参数的支持。

  • 修复从先前版本升级时的 Amazon ParallelCluster API 堆栈更新失败。在 EcrImageDeletionLambdaRole 中添加了用于 ListImagePipelineImages 操作的资源模式。

  • 修复 Amazon ParallelCluster API 在创建 for Lustre 文件系统时添加了从 Amazon S3 导入或导出所需的权限缺失的问题。 FSx

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 7 月 27 日

Amazon ParallelCluster 今年迄今为止仅限文档的更新

Amazon ParallelCluster 仅限文档的更新。

新章节:

章节更新:

2022 年 7 月 6 日

Amazon ParallelCluster 3.1.4 版本已发布

Amazon ParallelCluster 3.1.4 版本已发布。

增强功能:

更改:

  • 将 Slurm 升级到版本 21.08.8-2。

  • 借助 JWT 支持构建 Slurm。

  • 传递现有的 PlacementGroup/true时,不需要将PlacementGroup/En able d 设置为Id

  • 添加lambda:TagResource到 ParallelCluster API 堆栈中ParallelClusterUserRole用于创建集群和创建映像。

错误修复:

  • 修复了使用带 --filters 选项的 export-cluster-logs 命令时导出集群日志的功能。

  • 修复 B Amazon atch Docker 入口点以使用/home共享目录来协调 Multi-node-Parallel作业执行。

  • 将 Slurm 不健康的静态节点设置为关闭时重置节点地址,以避免将容量不足的静态节点视为引导失败节点。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 5 月 16 日

Amazon ParallelCluster 3.1.3 版本已发布

Amazon ParallelCluster 3.1.3 版本已发布。

增强功能:

  • 当切换到其他用户以及在以其他用户身份执行命令时,例如在 SSH 登录期间,将会执行 SSH 密钥创建并创建主目录。

  • 在配置参数 DirectoryService/DomainName 中增加了对 FQDN 和 LDAP 可分辨名称的支持。新验证器现在会检查这两种语法。

  • 头节点上部署的新 update_directory_service_password.sh 脚本支持手动更新 SSSD 配置中的 Active Directory 密码。密码由 S Amazon ecrets Manager 从集群配置中检索。

  • 增加了对在没有默认 VPC 的环境中部署 API 基础架构的支持。

更改:

  • 在 x86_64 官方版本中禁用更深层次的 C 状态, AMIs 并通过build-image命令 AMIs 创建,以保证高性能和低延迟。

  • 操作系统程序包更新和安全修复。

  • 将 Amazon Linux 2 基础映像更改为 AMIs 与内核 5.10 配合使用。

错误修复:

  • 由于新的 Image Builder 政策,在成功构建映像DELETE_FAILED后修复构建 EC2 映像堆栈。

  • 修复了配置参数 DirectoryService/DomainAddr 在包含多个域地址时转换为 ldap_uri SSSD 属性的问题。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub

2022 年 4 月 20 日

Amazon ParallelCluster 3.1.2 版本已发布

Amazon ParallelCluster 3.1.2 版本已发布。

更改:

  • 将 Slurm 升级到版本 21.08.6(从 21.08.5)。

错误修复:

  • 修复了在没有互联网访问权限的子网中部署集群时在计算节点上更新 /etc/hosts 文件的问题。

  • 修复了计算节点引导,在加入集群之前将等待临时驱动器初始化完成。

有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包的CHANGELOG文件。 GitHub

2022 年 3 月 2 日

Amazon ParallelCluster 3.1.1 版本已发布

Amazon ParallelCluster 3.1.1 版本已发布。

  • 通过与通过 Amazon Directory Service 管理的 Active Directory (AD) 域集成,增加对多用户群集环境的支持。

  • 在集群配置文件中添加UseEc对 2Hostnames 的支持。设置为 true 时,请使用亚马逊的 EC2 默认主机名(例如 ip-1-2-3-4)作为计算节点。

  • 增加了对在没有互联网访问权限的子网中创建集群的支持。

  • 添加了对每个队列包含多种计算实例类型的支持。

  • 在使用 NVIDIA 卡的 ARM 实例上添加了对使用 Slurm 进行 GPU 调度的支持。

  • 在 Amazon ParallelCluster CLI 中添加 cluster-name (-n)、region (-r)、image-id (-i) 和cluster-configuration/image-configuration(-c) 的缩写标志。

  • 添加对 Lustre AutoImportPolicy参数NEW_CHANGED_DELETED选项 FSx 的支持。

  • 为计算节点使用的 EC2LaunchTemplates资源添加parallelcluster:compute-resource-name标签。

  • 改进了在集群中创建的安全组,在为某些头节点和/或队列指定 SecurityGroups 参数的情况下,允许来自自定义安全组的入站连接。

  • 为 ARM 安装 NVIDIA 驱动程序和 CUDA 库。

更改:

  • 将 Slurm 升级到版本 21.08.5(从 20.11.8)。

  • 将 Slurm 插件升级到版本 21.08(从 20.11)。

  • 将 NICE DCV 升级到版本 2021.3-11591(从 2021.1-10851)。

  • 将 NVIDIA 驱动程序升级到版本 470.103.01(从 470.57.02)。

  • 将 NVIDIA Fabric Manager 升级到版本 470.103.01(从 470.57.02)。

  • 将 CUDA 升级到版本 11.4.4(从 11.4.0)。

  • Intel MPI 更新至 2021 年版更新 4(从 2019 年版更新 8 进行更新)。有关更多信息,请参阅 Intel® MPI Library 2021 更新 4

  • 升级 PMIx 到版本3.2.3(从3.1.5)。

  • 删除了将失败的计算节点转储到 /home/logs/compute。计算节点日志文件在 Amazon EC2 控制台日志 CloudWatch 和控制台日志中均可用。

  • 启用潜在抑制 SlurmQueuesComputeResources 长度验证器。

  • 在 Amazon Linux 2 上禁用实例启动时的程序包更新。

  • 在构建 Amazon ParallelCluster 自定义图像时禁用 Amazon EC2 ImageBuilder 增强版图像元数据。

  • cloud-init数据源明确设置为。 EC2这可节省 Ubuntu 和 CentOS 平台的启动时间。

  • 在计算实例集启动模板名称中使用计算资源名称而不是实例类型。

  • 将 stderr 和 stdout 重定向到 CLI 日志文件,以防止 pcluster CLI 输出中出现不需要的文本。

  • 将配置/安装食谱移动到从主程序调用的单独说明书中。现有的入口点保持不变,并且向后兼容。

  • 在 AMI 构建期间下载 Intel HPC 平台的依赖项,以避免在集群创建期间联系互联网。

  • 配置 Slurm 节点时不从计算资源名称中删除 -

  • 未安装 NVIDIA 驱动程序时,请勿 GPUs 在 Slurm 中进行配置。

  • 修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。

  • 修复了未指定前缀时的集群日志导出问题,以前导出为 None 前缀。

  • 修复了集群更新失败时不执行回滚的问题。

  • 修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。

  • 修复了 HeadNodeRootVolume 架构,如果指定了不支持的 KmsKeyId,则会引发错误。

  • 修复 Amazon FSx 缺少要在 CloudWatch 控制面板中显示的指标。

  • 修复了 EfaSecurityGroupValidator。以前,在提供自定义安全组并启用 EFA 的情况下,它可能会产生假失败。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub

2022 年 2 月 10 日

Amazon ParallelCluster 3.0.3 版本已发布

Amazon ParallelCluster 3.0.3 版本已发布。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub

2022 年 1 月 17 日

Amazon ParallelCluster 3.0.2 版本已发布

Amazon ParallelCluster 3.0.2 版本已发布。

弹性结构适配器安装程序升级到 1.14.1

  • EFA 配置:efa-config-1.9-1(从 efa-config-1.9

  • EFA 配置文件:efa-profile-1.5-1(从 efa-profile-1.5

  • EFA 内核模块:efa-1.14.2(从 efa-1.13.0

  • RDMA 内核:rdma-core-37.0(从 rdma-core-35

  • libfabric:libfabric-1.13.2(从 libfabric-1.13.0

  • Open MPI:openmpi40-aws-4.1.1-2(无变化)

GPUDirect 如果实例类型支持 RDMA,则始终处于启用状态。GdrSupport配置选项无效。

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub

2021 年 11 月 5 日

Amazon ParallelCluster 3.0.1 版本已发布

Amazon ParallelCluster 3.0.1 版本已发布。

集群配置迁移工具

  • 客户现在可以将其集群配置从 Amazon ParallelCluster 版本 2 格式迁移到基于 YAML 的 Amazon ParallelCluster 版本 3 格式。有关更多信息,请参阅 pclust er3-config-converter。

可以停止头节点

  • 停止计算队列后,可以使用 Amazon EC2 控制台或 st op-instances Amazon CLI 命令停止头节点,然后再重新启动。

~/.aws/config文件中读取的默认 Amazon 区域

  • 对于 pcluster 命令,如果未在配置文件、环境或命令行中指定 Amazon 区域,则使用~/.aws/config文件[default]部分的region设置中指定的默认区域。 Amazon

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub

2021 年 10 月 27 日

Amazon ParallelCluster 3.0.0 版本已发布

Amazon ParallelCluster 3.0.0 版本已发布。

支持通过 Amazon API Gateway 进行集群管理

  • 现在,客户可以使用 Amazon API Gateway 通过 HTTP 端点管理和部署集群。这为脚本化或事件驱动的工作流程开辟了新的可能性。

    为了与此 API 兼容, Amazon ParallelCluster 命令行界面 (CLI) 也进行了重新设计,并包括一个新的 JSON 输出选项。这项新功能使客户也可以使用 CLI 实现类似的构造块功能。

改进了自定义 AMI 的创建

  • 现在,客户可以使用更强大的流程来 AMIs 使用 EC2 Image Builder 创建和管理自定义内容。现在 AMIs 可以通过单独的 Amazon ParallelCluster 配置文件管理自定义,也可以在命令行界面中使用 pcluster build-image 命令进行创建。 Amazon ParallelCluster

有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub

2021 年 9 月 10 日

PCUI
更改 描述 日期

PCUI 版本 2024.11.0 已发布

PCUI 版本 2024.11.0 已发布

错误修复:

  • 明确设置 ECR 私有存储库的策略,以防止在影响到 Lambda 函数的堆栈更新时删除策略。该策略包括 Lambda 函数获取代码所需的权限。

2024 年 11 月 22 日

PCUI 版本 2024.10.0 已发布

PCUI 版本 2024.10.0 已发布

更改:

  • 添加对 Amazon ParallelCluster 3.11.1 的支持。

  • 在向导中添加对按需容量预留和容量块的支持。

  • 将 g6、m7 和 p5 系列添加到向导中支持的实例类型列表中。

  • 添加新的堆栈可选参数,为 PCUI 和 Cognito 配置自定义域。

错误修复:

  • 修复了破坏自定义域名设置的错误。

安全性:

  • 将 Flask-cors 从 3.0.10 升级到 4.0.2 以解决 CVE-2024-6221 漏洞。

  • 将 lint-staged 从 13.0.3 升级到 15.2.5,以解决 CVE-2024-4068 漏洞。

  • 完整更改日志

2024 年 10 月 22 日

发布了 PCUI 版本 2024.05.0

发布了 PCUI 版本 2024.05.0。

错误修复:

  • 修复了用户打开“作业状态”面板时前端屏蔽 UI 的错误。

  • 完整更改日志

2024 年 5 月 14 日

发布了 PCUI 版本 2024.04.0

发布了 PCUI 版本 2024.04.0。

功能:

2024 年 4 月 17 日

发布了 PCUI 版本 2024.03.0

发布了 PCUI 版本 2024.03.0。

功能:

  • 增加了对 Amazon ParallelCluster 版本 3.9.0 的支持

  • 增加了对 Ubuntu 22.04 和 Red Hat Enterprise Linux 9 的支持

  • 已弃用 Ubuntu 18.04

错误修复

  • 修复了在使用多个集群时导致某些集群不显示的问题

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2024 年 3 月 12 日

发布了 PCUI 版本 2024.02.0

发布了 PCUI 版本 2024.02.0

更改:

  • 将 Lambda 运行时环境更新为 Python v3.9

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2024 年 2 月 8 日

发布了 PCUI 版本 2023.12.0

发布了 PCUI 版本 2023.12.0。

功能:

  • 增加了对使用私有联网部署 PCUI 的支持。

  • 增加了选择对 PCUI 和 PCAPI 基础设施创建的每个 IAM 角色应用权限边界的可能性

  • 增加了选择对 PCUI 和 PCAPI 基础设施创建的每个 IAM 角色和策略应用前缀的可能性。

  • 增加了对 ParallelCluster 版本 3.8.0 的支持,向导中没有功能对等。

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2023 年 12 月 21 日

发布了 PCUI 版本 2023.10.0

发布了 PCUI 版本 2023.10.0。

功能:

  • 增加了对 ParallelCluster 3.7.2 的支持,向导中的功能对等仅限于 FSx 文件缓存和与多种实例类型的基于内存的调度兼容。

错误修复:

  • 修复了当 PCUI 没有与 Cost Explorer 交互的权限时导致 UI 错误的问题。

改进

  • 通过将访问令牌 TTL 从 10 分钟缩短为 5 分钟,提高了安全性。

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2023 年 10 月 20 日

发布了 PCUI 版本 2023.06.0

发布了 PCUI 版本 2023.06.0。

更改:

  • 已将默认 Amazon ParallelCluster API 版本升级到 3.6.0。

错误修复:

  • 修复了 Amazon GovCloud (美国西部)区域部署中断的问题。

  • 现在,在创建开始后,拆分面板可以正确加载集群详细信息。

注意:

  • 成本监控功能不在 Amazon GovCloud (美国)地区提供。

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2023 年 6 月 7 日

发布了 PCUI 版本 2023.05.0

发布了 PCUI 版本 2023.05.0。

增强功能:

  • 从 3.6.0 Amazon ParallelCluster 版本开始,添加对 RHEL 8 的支持。

  • 添加了集群成本监控功能。

  • 从 3.6.0 Amazon ParallelCluster 版开始,增加队列和计算资源配额。

更改:

  • 改进了集群创建向导的用户界面。

  • 提高了 PCUI 部署的速度。

  • 改进了添加新用户的界面。

  • 队列默认位于头节点子网中。

错误修复:

  • 集群创建完成后,切换到正确的区域。

  • 修复了“编辑集群”功能中的加载指示器显示问题。

  • 修复移除 EBS SnapshotId 属性时创建集群的问题。

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2023 年 5 月 16 日

发布了 PCUI 版本 2023.04.0

发布了 PCUI 版本 2023.04.0。

增强功能:

  • 重新设计了集群创建向导。

  • 重新设计了集群日志页面。

  • 为共享存储添加了自定义名称设置。

  • 在向集群添加存储时添加了多个存储选项。

  • 添加对 Amazon EFS 和 Lustre FSx 的DeletionPolicy支持。

  • 在集群配置中添加了 ImdsSupport 设置。

  • 增加了对 C7 实例类型的支持。

  • 添加了教程 “恢复到以前的 S Amazon ystems Manager 文档版本”

更改:

  • 集群配置 YAML 的大小最大可达到 1MB。

  • 用户不会因为使用 Boto3 IAM 临时凭证进行授权而注销。

  • 选择 HPC 实例时禁用了多线程选项。

  • 删除了集群创建页面上的禁用回滚功能。

  • 在提供必需的信息之前,用户无法使用 PCUI。

  • 最多可以添加 10 个队列。

  • 在 PCUI 安装过程中不覆盖 SSM-SessionManagerRunShell 文档。

错误修复:

  • 修复了损坏的重置密码链接。

  • 修复了因 EcrPrivateRepository 不为空而导致 delete stack 损坏的问题

  • 修复了“多用户管理属性”部分中“生成 SSH 密钥”复选框的初始化问题。

  • 修复了因作业具有未定义属性而导致崩溃的问题。

  • 修复了刮刮 FSx 设置。

  • 修复了“启动和停止实例”按钮,单击一次后仍处于启用状态。

有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG文件 GitHub。

2023 年 4 月 17 日

Terraform
更改 描述 日期

1.1.0 的 Terraform Provider 已发布 Amazon ParallelCluster

错误修复:

  • 修复了使用 ParallelCluster API 3.11.x 部署带有登录节点的集群时导致 terraform-apply 失败的问题。

2024 年 12 月 6 日

1.1.0 版的 Terraform 模块已发布 Amazon ParallelCluster

更改:

  • 在所有模块示例中使用 Amazon ParallelCluster Terraform Provider 1.x。

  • 在所有带有堆栈名称 ParallelCluster的示例中使用 ParallelCluster API 3.11.1 API。

  • 在所有模块示例中部署登录节点。

2024 年 12 月 6 日

1.0.0 的 Terraform Provider 已发布 Amazon ParallelCluster

功能:

2024 年 6 月 26 日

1.0.0 版的 Terraform 模块已发布 Amazon ParallelCluster

功能:

2024 年 6 月 26 日