变更 | 说明 | 日期 |
---|
Amazon ParallelCluster用户界面版本 2023.12.0 已发布 | Amazon ParallelCluster用户界面版本 2023.12.0 已发布。
功能:
-
增加了对使用私有网络部署 PCUI 的支持。
-
增加了可选地将权限边界应用于 PCUI 和 PCAPI 基础设施创建的每个 IAM 角色的可能性
-
增加了可选地为由 PCUI 和 PCAPI 基础设施创建的每个 IAM 角色和策略应用前缀的可能性。
-
增加了对 ParallelCluster 版本 3.8.0 的支持,向导中没有功能对等。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 12 月 21 日 |
Amazon ParallelCluster3.8.0 版本已发布 | Amazon ParallelCluster3.8.0 版本已发布。
增强功能:
-
添加对适用于 ML 的 EC2 容量块的支持。
-
添加对通过build-image 流程CustomAmi 创建的 Rocky Linux 8 的支持。目前还没有官方的 Amazon ParallelCluster Rocky8 Linux AMI 可用。
-
添加Scheduling/ScalingStrategy 参数以控制启动 Slurm 计算节点的 EC2 实例时要使用的集群扩展策略。可能的值为all-or-nothing 、greedy-all-or-nothing 、best-effort 、,且all-or-nothing 为默认值。
-
添加HeadNode/SharedStorageType 参数以使用 EFS 存储,而不是从头节点根卷导出 NFS 来存储集群内共享文件系统资源:Intel ParallelCluster、Slurm 和数据。/home 此增强功能减少了头节点网络的负载。
-
允许通过配置文件SharedStorage 部分/home 作为 EFS 或 FSx 外部共享存储进行挂载。
-
添加新参数SlurmSettings/MungeKeySecretArn 以允许使用来自 Secrets Manager 的外部用户定义的 MUNGE 密钥。
-
添加Monitoring/Alarms/Enabled 参数以切换集群的 Amazon CloudWatch 警报。
-
添加头节点警报以监控 EC2 运行状况检查、CPU 利用率和头节点的整体状态,并将其添加到使用集群创建的 CloudWatch 控制面板中。
-
将 as 用于托管 FSx for Lu PERSISTENT_2 stre 时,添加DeploymentType 对数据存储库关联的支持。
-
添加Scheduling/SlurmSettings/Database/DatabaseName 参数以允许用户为数据库服务器上用于 Slurm 记账的数据库指定自定义名称。
-
在计算资源CapacityReservationTarget/CapacityReservationId 中InstanceType 进行配置时,请创建一个可选的配置参数。
-
增加了为 Amazon ParallelCluster API 创建的 IAM 角色和策略指定前缀的可能性。
-
增加了为由 Amazon ParallelCluster API 创建的 IAM 角色和策略指定要应用的权限边界的可能性。
更改
将 Slurm 升级到 23.02.7(从 23.02.6 开始)。 将 NVIDIA 驱动程序升级到版本 535.129.03。 将 CUDA 工具包升级到版本 12.2.2。 使用开源 NVIDIA GPU 驱动程序 (OpenRM) 作为 Linux 的 NVIDIA 内核模块,而不是 NVIDIA 闭源模 移除 Slurm 恢复程序中对all_or_nothing_batch 配置参数的支持,转而使用新的Scheduling/ScalingStrategy 集群配置。 将集群警报命名约定更改为 “[集群名称]-[组件名称]-[指标]”。 将 ADC 区域中根卷和其他卷的默认 EBS 卷类型从 gp2 更改为 gp3。 API 的可选权限边界现已应用于 Amazon ParallelCluster API 基础设施创建的每个 IAM 角色。
在所有支持的操作系统中将 gdrCopy 升级到 2.4 版,但使用 2.3.1 版本的 Centos 7 除外。 升级aws-cfn-bootstrap 到 2.0-28 版本。 在中添加对 Python 3.10 的 aws-parallelcluster-batch-cli支持。
错误修复
修复修改计算资源中声明的实例类型列表时,集群更新回滚后扩展配置不一致的问题。 修复通过集群配置文件在与外部 LDAP 服务器集成的集群中切换没有 root 权限的用户时会生成用户 SSH 密钥的问题。 修复了设置时禁用 Slurm 省电模式的问题。ScaledownIdletime = -1 修复 Slurm Accounting update_slurm_database_password.sh 脚本中指向 Slurm 安装目录的硬编码路径。
| 2023年12月19日 |
Amazon ParallelCluster3.7.2 版本已发布 | Amazon ParallelCluster3.7.2 版本已发布。
| 2023 年 10 月 25 日 |
Amazon ParallelCluster用户界面版本 2023.10.0 已发布 | Amazon ParallelCluster用户界面版本 2023.10.0 已发布。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 10 月 20 日 |
Amazon ParallelCluster3.7.1 版本已发布 | Amazon ParallelCluster3.7.1 版本已发布。
更改:
-
将 Slurm 升级到 23.02.5(从 23.02.4 开始)。
-
将 EFA 安装程序升级到1.26.1 ,修复 P5 中的 RDMA 写入数据问题。
-
EFA 司机:。efa-2.5.0-1
-
EFA 配置:。efa-config-1.15-1
-
EFA 简介:。efa-profile-1.5-1
-
libfabric-aws:。libfabric-aws-1.18.2-1
-
erdma-core:。rdma-core-46.0-1
-
打开 MPI:openmpi40-aws-4.1.5-4 .
| 2023 年 9 月 22 日 |
发布了 Amazon ParallelCluster 版本 3.7.0 | 发布了 Amazon ParallelCluster 版本 3.7.0。
增强功能:
-
支持使用 Amazon ParallelCluster 配置 YAML 文件配置计算资源中的静态和动态节点优先级。
-
添加了对 Ubuntu 22 的支持。默认情况下不支持 RSA 密钥。
-
添加了队列配置设置 JobExclusiveAllocation ,用于在任何给定时间在分区中以独占模式将节点分配给单个作业。
-
允许在创建集群和更新集群时覆盖aws-parallelcluster-node 软件包。对于头节点,这适用于集群更新。仅用于开发目的。
-
避免在计算节点上启动 NFS 服务器。
-
添加了对登录节点的支持。
-
当为 Slurm 计算资源指定了多种实例类型时,允许进行基于内存的调度。
-
添加了支持,允许将现有 Amazon 文件缓存作为共享存储进行挂载。
更改:
-
默认为 Slurm 动态节点分配 1000 的优先级(权重)。这样,Slurm 便可以将空闲静态节点设置为优先于空闲动态节点。
-
使aws-parallelcluster-node 守护程序仅处理Amazon ParallelCluster托管Slurm分区。
-
将 EFS-utils 监视器轮询间隔增加到 10 秒。当 EncryptionInTransit 设置为 true 时(这是导致监视器运行的唯一条件),此更改适用。
-
将 EFA 安装程序升级到 1.25.1 。
-
Efa-driver:efa-2.5.0-1 (从 efa-2.1.1g )
-
Efa-config:efa-config-1.15-1 (从 efa-config-1.13-1 )
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.18.1-0 (从 libfabric-aws-1.17.1-1 )
-
Rdma-core:rdma-core-46.0-1 (从 rdma-core-43.0-1 )
-
Open MPI:openmpi40-aws-4.1.5-4 (从 openmpi40-aws-4.1.5-1 )
-
将 Slurm 升级到版本 23.02.4。
-
将 Imds/ 的默认值ImdsSupport 从 v1.0 更改为 v2.0。
-
弃用 Ubuntu 18。
-
将默认根卷大小更新为 40 GB,以补偿对 Centos 7 的限制。
-
限制头节点内文件 /tmp/wait_condition_handle.txt 的权限,只有根用户才能读取。
-
创建一个 Slurm 分区节点列表映射 JSON 文件,供节点程序包进程守护程序用来识别 PC 托管的 Slurm 分区和节点列表。
-
将 NVIDIA 驱动程序升级到版本 535.54.03。
-
将 CUDA 库升级到版本 12.2.0。
-
将 NVIDIA 结构管理器升级到 nvidia-fabricmanager-535
-
将 ARM PL 升级到版本 23.04.1,仅适用于 Ubuntu 22.04。
-
将 NICE DCV 升级到版本 2023.0-15487 。
错误修复:
-
为 ScaledownIdletime 值添加验证功能,以防止设置的值低于 -1。
-
修复了在启用 DCV 的 GPU 实例上使用 Ubuntu 深度学习 AMI 创建集群失败的问题。
-
修复了使用创建 ParallelCluster CloudFormation 自定义资源提供商时导致创建悬而未决的 IAM 策略的问题 CustomLambdaRole。
-
修复了使用等于 True 的 SlurmSettings/Dns/UseEc2Hostnames 时导致具有多个网络接口的实例上的计算节点 DNS 名称不一致的问题
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 8 月 30 日 |
仅文档发布 | 发布了特定于 Amazon ParallelCluster 版本 3 的用户指南。
| 2023 年 7 月 17 日 |
发布了 Amazon ParallelCluster 版本 3.6.1 | 发布了 Amazon ParallelCluster 版本 3.6.1。
错误修复:
-
删除根卷设备名称的硬编码(/dev/sda1 和 /dev/xvda ),并从 create-cluster 过程中使用的 AMI 中进行检索。
-
修复使用ElasticIp 设置为的 CloudFormation 自定义资源时集群创建失败的问题True 。
-
修复了使用包含大配置文件的 Amazon CloudFormation 自定义资源时集群创建和更新失败的问题。
-
修复了无法在 Ubuntu 上禁用 ptrace 保护并且不允许在 libfabric 中进行跨内存附加 (CMA) 的问题。
-
修复了使用多个实例类型且未返回任何实例时的快速容量不足故障转移逻辑。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 7 月 5 日 |
发布了 Amazon ParallelCluster UI 版本 2023.06.0 | 发布了 Amazon ParallelCluster UI 版本 2023.06.0。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 6 月 7 日 |
发布了 Amazon ParallelCluster 版本 3.6.0 | 发布了 Amazon ParallelCluster 版本 3.6.0。
增强功能:
-
添加了对 RHEL8 的支持。
-
添加用于创建和管理集群的Amazon CloudFormation自定义资源 CloudFormation。
-
在 Amazon ParallelCluster 配置 YAML 文件中添加了对自定义集群 Slurm 配置的支持。
-
构建支持 LUA 的 Slurm。
-
将每个集群的最大队列数限制从 10 增加到 50。每个队列最多可以有 50 个计算资源。每个集群最多可以有 50 个计算资源。
-
添加了支持,允许为 OnNodeStart 、OnNodeConfigured 和 OnNodeUpdated 参数中配置的事件指定一系列多个自定义操作脚本。
-
添加了新的配置部分 HealthChecks /Gpu ,用于在运行作业之前在计算节点上应用 GPU 运行状况检查。
-
在 SlurmQueues 和SlurmQueues /ComputeResources 配置中添加了对 Tags 的支持。
-
在 Monitoring 配置中添加了对 DetailedMonitoring 的支持。
-
在Amazon ParallelClusterCloudWatch 仪表板中添加mem_used_percent 头节点内存和根卷磁盘利用率跟踪disk_used_percent 指标,并设置警报以监控这些指标。
-
对 Amazon ParallelCluster 托管的 日志添加了日志轮换支持。
-
在CloudWatch 控制面板中跟踪常见的计算节点错误和动态节点最长空闲时间。
-
在创建 SSL 套接字时,强制 DCV Authenticator Server 至少使用 TLS-1.2 协议。
-
在除 aarch64 centos7 和 alinux2 之外的所有支持的操作系统上安装 NVIDIA Data Center GPU Manager (DCGM) 程序包。
-
默认加载内核模块 nvidia-uvm,为 CUDA 驱动程序提供统一虚拟内存 (UVM) 功能。
-
安装 NVIDIA 持久性进程守护程序作为一项系统服务。
更改:
-
将 Slurm 升级到版本 23.02.2 (从版本 22.05.8 )。
-
将 munge 升级到版本 0.5.15 (从版本 0.5.14 )。
-
将 Slurm TreeWidth 设置为 30。
-
将 Slurm prolog 和 epilog 配置分别设置为目标目录 /opt/slurm/etc/scripts/prolog.d/ 和 /opt/slurm/etc/scripts/epilog.d/ 。
-
将 Slurm BatchStartTimeout 设置为最长 3 分钟,以便在计算节点注册期间运行 Prolog 脚本。
-
将 CloudWatch 日志RetentionInDays 的默认值从 14 天增加到 180 天。
-
将 EFA 安装程序升级到 1.22.1 。
-
Dkms:2.8.3-2
-
Efa-driver:efa-2.1.1g (无变化)
-
Efa-config:efa-config-1.13-1 (无变化)
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.17.1-1 (从 libfabric-aws-1.17.0-1 )
-
Rdma-core:rdma-core-43.0-1 (无变化)
-
Open MPI:openmpi40-aws-4.1.5-1 (无变化)
-
在 Amazon Linux 2 上将 Lustre 客户端版本升级到 2.12 。Lustre 客户端 2.12 已经安装在 Ubuntu 20.04、18.04 和 CentOS >= 7.7 上。
-
在 CentOS 7.6 上将 Lustre 客户端版本升级到 2.10.8 。
-
将 NVIDIA 驱动程序升级到版本 470.182.03 (从版本 470.141.03 )。
-
将 NVIDIA Fabric Manager 升级到版本 470.182.03 (从版本 470.141.03 )。
-
将 NVIDIA CUDA Toolkit 升级到版本 11.8.0 (从版本 11.7.1 )。
-
将 NVIDIA CUDA 示例升级到版本 11.8.0 。
-
将 Intel MPI Library 升级到 2021 年版更新 9(从 2021 年版更新 6)。有关更多信息,请参阅 Intel® MPI Library 2019 更新 9。
-
将 NICE DCV 升级到版本 2023.0-15022 (从版本 2022.2-14521 )。
-
server:2023.0.15022-1 (从版本 2022.2-14521-1 )。
-
xdcv:2023.0.547-1 (从版本 2022.2.519-1 )。
-
gl:2023.0.1027-1 (从版本 2022.2.1012-1 )。
-
web_viewer:2023.0.15022-1 (从版本 2022.2.14521-1 )。
-
将 aws-cfn-bootstrap 升级到版本 2.0-24 。
-
升级 CodeBuild 环境在为集Amazon Batch群构建容器镜像时使用的镜像:
错误修复:
-
修复了 Amazon EFS 和 Amazon FSx 网络安全组验证器以避免误报错。
-
修复了 Image Builder 在 build-image 操作期间创建的资源缺少标记的问题。
-
修复了 MaxCount 的更新策略,使其始终对 MaxCount 属性进行数值比较。
-
修复了具有多个网卡的计算节点实例上的 IP 一致性问题。
-
修复了在执行队列参数更新后 Slurm 会计配置未更新时 slurm_parallelcluster_slurmdbd.conf 中 StoragePass 的替换问题。
-
修复了使用现有 EFS 文件系统创建集群时导致创建虚安全组的问题。
-
修复了重启 cfn-hup 进程守护程序时导致其失败的问题。
-
将带有 INVALID_REG 标记的动态节点视为 Slurm 保护模式的引导失败。node_replacement_timeout 之后 Slurm 注册失败的静态节点已被视为引导失败。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 5 月 22 日 |
发布了 Amazon ParallelCluster UI 版本 2023.05.0 | 发布了 Amazon ParallelCluster UI 版本 2023.05.0。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 5 月 16 日 |
发布了 Amazon ParallelCluster UI 版本 2023.04.0 | 发布了 Amazon ParallelCluster UI 版本 2023.04.0。
增强功能:
-
重新设计了集群创建向导。
-
重新设计了集群日志页面。
-
为共享存储添加了自定义名称设置。
-
在向集群添加存储时添加了多个存储选项。
-
添加了对 Amazon EFS 和适用于 Lustre 的 FSx 的 DeletionPolicy 支持。
-
在集群配置中添加了 ImdsSupport 设置。
-
添加了对 C7 实例类型的支持。
-
添加了教程恢复到以前的 Amazon Systems Manager 文档版本。
更改:
-
集群配置 YAML 的大小最大可达到 1MB。
-
用户不会因为使用 Boto3 IAM 临时凭证进行授权而注销。
-
选择 HPC 实例时禁用了多线程选项。
-
删除了集群创建页面上的禁用回滚功能。
-
在提供必需的信息之前,用户无法使用 Amazon ParallelCluster UI。
-
最多可以添加 10 个队列。
-
在 Amazon ParallelCluster UI 安装过程中不覆盖 SSM-SessionManagerRunShell 文档。
错误修复:
-
修复了损坏的重置密码链接。
-
修复了因 EcrPrivateRepository 不为空而导致 delete stack 损坏的问题
-
修复了“多用户管理属性”部分中“生成 SSH 密钥”复选框的初始化问题。
-
修复了因作业具有未定义属性而导致崩溃的问题。
-
修复了 SCRATCH FSx 的设置。
-
修复了“启动和停止实例”按钮,单击一次后仍处于启用状态。
有关变更的详细信息,请参阅上对应的aws-parallelcluster-ui软件包的CHANGELOG 文件 GitHub。 | 2023 年 4 月 17 日 |
发布了 Amazon ParallelCluster 版本 3.5.1 | 发布了 Amazon ParallelCluster 版本 3.5.1。
更改:
-
将 EFA 安装程序升级到 1.22.0 。
-
Efa-driver:efa-2.1.1g (从 efa-2.1.1-1 )
-
Efa-config:efa-config-1.13-1 (从 efa-config-1.12-1)
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.17.0-1 (从 libfabric-aws-1.16.1amzn3.0-1 )
-
Rdma-core:rdma-core-43.0-1 (无变化)
-
Open MPI:openmpi40-aws-4.1.5-1 (从 openmpi40-aws-4.1.4-3 )
将 NICE DCV 升级到版本 2022.2-14521 。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 3 月 29 日 |
发布了 Amazon ParallelCluster 版本 3.5.0 | 发布了 Amazon ParallelCluster 版本 3.5.0。
增强功能:
-
使用 Amazon ParallelCluster UI 访问和管理集群。
-
在 CloudFormation 模板中添加版本化Amazon ParallelCluster策略,供您在工作负载中引用。
-
添加了可与自己的代码一起使用的 Amazon ParallelCluster Python 库。
-
在计算节点引导失败时向 Amaz CloudWatch on 添加计算节点控制台输出的日志记录。
-
集群创建失败时向 describe-cluster 输出中添加了包含失败代码和原因的失败字段。
-
添加了验证器以防止在调用子进程模块时注入恶意字符串。
-
在配置静态节点时,如果集群状态更改为 PROTECTED ,则集群创建将失败。
错误修复:
-
在启用 Slurm 会计的情况下,通过验证集群名称是否不超过 40 个字符,修复了集群数据库创建问题。
-
修复了在 EC2 实例状态检查失败时 clustermgtd 中导致通过 Slurm 重启的计算节点被替换的问题。
-
修复了由于头节点上的 IAM 策略不正确而导致与其他账户共享容量预留的计算节点无法启动的问题。
有关更改的详细信息,请参阅上的 aws-parallelcluster、aws-parallelcluster-cookbookaws-parallelcluster-node、和软件包的CHANGELOG 文件。aws-parallelcluster-ui GitHub | 2023 年 2 月 20 日 |
发布了 Amazon ParallelCluster 版本 3.4.1 | 发布了 Amazon ParallelCluster 版本 3.4.1。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2023 年 1 月 13 日 |
发布了 Amazon ParallelCluster 版本 3.4.0 | 发布了 Amazon ParallelCluster 版本 3.4.0。
更改:
-
取消为现有文件系统创建 Amazon EFS 挂载目标。
-
使用 amazon-efs-utils 挂载 EFS 文件系统。可以使用传输中加密和 IAM 授权用户来挂载 EFS 文件系统。
-
在 Centos7 和 Ubuntu 上安装 stunnel 5.67 以支持 EFS 传输中加密。
-
将 EFA 安装程序升级到 1.20.0 (从 1.18.0 )。
-
Efa-driver:efa-2.1 (从 efa-1.16.0-1 )
-
Efa-config:efa-config-1.11-1 (无变化)
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.16.1 (从 libfabric-aws-1.16.0~amzn4.0-1 )
-
Rdma-core:rdma-core-43.0-2 (从 rdma-core-41.0-2 )
-
Open MPI:openmpi40-aws-4.1.4-3 (从 openmpi40-aws-4.1.4-2 )
-
将 Slurm 升级到版本 22.05.7 (从 22.05.5 )。
-
将 Python 升级到 3.9.16 和 3.7.16 (从 3.9.15 和 3.7.13 )。
-
使用 Slurm 22.05.7 ,处于 IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING 状态的动态节点不会被视为运行状况不佳。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 12 月 22 日 |
发布了 Amazon ParallelCluster 版本 3.3.1 | 发布了 Amazon ParallelCluster 版本 3.3.1。
有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包CHANGELOG 文件。 GitHub | 2022 年 12 月 2 日 |
仅 Amazon ParallelCluster 文档 hpc6id 说明 | 仅 Amazon ParallelCluster 文档更新
| 2022 年 12 月 2 日 |
发布了 Amazon ParallelCluster 版本 3.1.5 | 发布了 Amazon ParallelCluster 版本 3.1.5。
增强功能:
-
修复了阻止空闲节点终止的 Slurm 问题。
-
将 EFA 安装程序升级到 1.18.0
-
Efa-driver:efa-1.16.0-1
-
Efa-config:efa-config-1.11-1 (从 efa-config-1.9-1 )
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1 (从 libfabric-1.13.2 )
-
Rdma-core:rdma-core-41.0-2 (从 rdma-core-37.0 )
-
Open MPI:openmpi40-aws-4.1.4-2 (从 openmpi40-aws-4.1.1-2 )
更改:
-
向 Amazon ParallelCluster API 堆栈用于进行集群更新的 ParallelClusterUserRole 中添加了 lambda:ListTags 和 lambda:UntagResource 。
-
将 Intel MPI Library 升级到 2021 年版更新 6(从 2021 年版更新 4)。有关更多信息,请参阅 Intel® MPI Library 2021 更新 6。
-
将 NVIDIA 驱动程序升级到版本 470.141.03(从 470.103.01)。
-
将 NVIDIA Fabric Manager 升级到版本 470.141.03(从 470.103.01)。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 11 月 16 日 |
发布了 Amazon ParallelCluster 版本 3.3.0 | 发布了 Amazon ParallelCluster 版本 3.3.0。
更改:
-
更改了 SlurmQueues/Networking/PlacementGroup/Enabled 的行为。现在,它会为每个计算资源创建一个唯一的托管置放群组,而不是为所有计算资源创建一个托管置放群组。
-
添加了对 SlurmQueues/Networking/PlacementGroup/Name 作为首选命名方法的支持。
-
将头节点标签从启动模板移动到了实例定义中,以避免在标签更新时替换头节点。
-
通过 cloud-init 执行的脚本而不是通过启动模板中设置的 CpuOptions 禁用多线程处理。
-
在 API 基础架构、API Docker 容器和集群 Lambda 资源中将 Python 升级到版本 3.9,将 NodeJS 升级到版本 16。
-
在 aws-parallelcluster-batch-cli 中删除了对 Python 3.6 的支持。
-
将 Slurm 升级到版本 22.05.5 (从 21.08.8-2 )。
-
将 NVIDIA 驱动程序升级到版本 470.141.03 (从 470.129.06 )。
-
将 NVIDIA Fabric Manager 升级到版本 470.141.03 (从 470.129.06 )。
-
将 NVIDIA CUDA Toolkit 升级到版本 11.7.1(from 11.4.4 )。
-
将 Amazon ParallelCluster virtualenvs 中使用的 Python 从 3.7.13 升级到 3.9.15 。
-
将 EFA 安装程序升级到版本 1.18.0。
-
Efa-driver:efa-1.16.0-1 (无变化)
-
Efa-config:efa-config-1.11-1 (from efa-config-1.10-1 )
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1 (从 libfabric-aws-1.16.0~amzn2.0-1 )
-
Rdma-core:rdma-core-41.0-2 (从 rdma-core-37.0 )
-
Open MPI:openmpi40-aws-4.1.4-2 (从 openmpi40-aws-4.1.1-2 )
-
将 NICE DCV 升级到版本 2022.1-13300 (从 2022.0-12760 )。
-
为 Queues 启用 SingleSubnetValidator 抑制。
-
当节点处于 COMPLETING 状态时不替换 DRAIN 节点,因为 Epilog 可能仍在运行。
错误修复:
-
修复了在传递错误的筛选器时 Amazon ParallelCluster ListClusterLogStreams 命令中的筛选器参数验证失败的问题。
-
修复了与EfsSettings其他 SharedStorageSharedStorage/参数一起指定FileSystemId 时无法验证EfsSettings参数/的问题。以前不包括 FileSystemId 。
-
修复了在配置中更改 SharedStorage 的顺序以及进行其他更改时的集群更新问题。
-
修复UpdateParallelClusterLambdaRole 了Amazon ParallelCluster用于上传日志的 API CloudWatch。
-
修复了在执行任何说明书之前安装程序包时 Cinc 不使用本地 CA 证书捆绑包的问题。
-
修复了在设置 Build:UpdateOsPackages:Enabled:true 后使用 pcluster build-image 升级 ubuntu 时出现的挂起问题。
-
修复了 YAML 集群配置分析在遇到重复密钥时失败的问题。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 11 月 2 日 |
添加了仅 Amazon ParallelCluster 文档 API 参考。 | 仅 Amazon ParallelCluster 文档更新
| 2022 年 10 月 27 日 |
发布了 Amazon ParallelCluster 版本 3.2.1 | 发布了 Amazon ParallelCluster 版本 3.2.1。
更改:
-
将 NVIDIA 驱动程序升级到版本 470.141.03。
-
将 NVIDIA Fabric Manager 升级到版本 470.141.03。
-
禁用可能对节点性能产生负面影响的 cron 作业任务 man-db 和 mlocate 。
-
将 Intel MPI Library 升级到 2021.6.0.602。
-
将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 10 月 3 日 |
发布了 Amazon ParallelCluster 版本 3.2.0 | 发布了 Amazon ParallelCluster 版本 3.2.0。
更改:
-
将 EFA 安装程序升级到版本 1.17.2。
-
EFA 驱动程序:efa-1.16.0-1
-
EFA 配置:efa-config-1.10-1
-
EFA 配置文件:efa-profile-1.5-1
-
Libfabric:libfabric-aws-1.16.0~amzn2.0-1
-
RDMA 内核:rdma-core-41.0-2
-
Open MPI:openmpi40-aws-4.1.4-2
-
将 NICE DCV 升级到版本 2022.0-12760。
-
将 NVIDIA 驱动程序升级到版本 470.129.06。
-
将 NVIDIA Fabric Manager 升级到版本 470.129.06。
-
将根卷和其他卷中的默认 EBS 卷类型从 gp2 更改为 gp3。
-
对 Amazon ParallelCluster 创建的适用于 Lustre 的 FSx 文件系统进行的更改:
-
将默认部署类型更改为 Scratch_2 。
-
将 Lustre 服务器版本更改为 2.12 。
-
传递现有的 PlacementGroup /Id 时不需要将 PlacementGroup/Enabled 设置为 true 。
-
当 PlacementGroup /Enabled 显式设置为 false 时,不允许设置 PlacementGroup /Id 。
-
为 Amazon ParallelCluster 创建的所有资源添加标签 parallelcluster:cluster-name 。
-
为 Amazon ParallelCluster API 堆栈用于进行集群更新的 ParallelClusterUserRole 添加 lambda:ListTags 和 lambda:UntagResource 。
-
启用配置参数 HeadNode /Imds /Secured 后,将 IPv6 对 IMDS 的问权限限制为仅根用户和集群管理员用户。
-
对于自定义 AMI,请使用 AMI 根卷大小,而不是 ParallelCluster 默认的 35 GiB。可以在集群配置文件中更改该值。
-
当配置参数 Scheduling /SlurmQueues /ComputeResources /SpotPrice 低于所需的最低竞价型请求履行价格时,自动禁用计算实例集。
-
在更新期间添加或删除某个部分时,在更改集中显示 requested_value 和 current_value 值。
-
禁用深度学习 AMI 中提供的 aws-ubuntu-eni-helper 服务,以避免在配置具有多个网卡的实例时与 configure_nw_interface.sh 冲突。
-
删除了对 Python 3.6 的支持。
-
在配置具有多个网卡的实例时,将所有网络接口的 MTU 设置为 9001。
-
配置计算节点 FQDN 时,删除结尾圆点。
-
在 POWERING_DOWN 中管理静态节点。
-
不替换 POWER_DOWN 中的动态节点,因为作业可能仍在运行。
-
只有在更新了集群配置中的 Scheduling 参数时,才会在集群更新时重启 clustermgtd 和 slurmctld 进程守护程序。
-
更新 slurmctld 和 slurmd systemd 服务文件。
-
启用配置参数 HeadNode /Imds /Secured 后,将 IPv6 对 IMDS 的问权限限制为仅根用户和集群管理员用户。
-
设置 Slurm 配置 AuthInfo=cred_expire=70 以缩短在节点不可用时重新排队的作业在重启之前必须等待的时间。
-
升级第三方说明书依赖项:
-
apt-7.4.2(从 apt-7.4.0)
-
line-4.5.2(从 line-4.0.1)
-
openssh-2.10.3(从 openssh-2.9.1)
-
pyenv-3.5.1(从 pyenv-3.4.2)
-
selinux-6.0.4(从 selinux-3.1.1)
-
yum-7.4.0(从 yum-6.1.1)
-
yum-epel-4.5.0(从 yum-epel-4.1.2)
错误修复:
-
修复了默认行为,可在构建自定义 AMI 时跳过 Amazon ParallelCluster 验证和测试步骤。
-
修复了 computemgtd 中的文件句柄泄漏问题。
-
修复了因为 EC2 DescribeInstances 响应中尚不可用而偶尔导致已启动的实例立即终止的争用条件。
-
对于使用 Arm 处理器的实例类型,修复了对 DisableSimultaneousMultithreading 参数的支持。
-
修复了从先前版本升级时 Amazon ParallelCluster API 堆栈更新失败的问题。在 EcrImageDeletionLambdaRole 中添加了用于 ListImagePipelineImages 操作的资源模式。
-
修复了 Amazon ParallelCluster API,添加了创建适用于 Lustre 的 FSx 文件系统时从 Amazon S3 中导入或导出所需的缺少权限。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 7 月 27 日 |
本年度到目前为止的仅 Amazon ParallelCluster 文档更新 | 仅 Amazon ParallelCluster 文档更新。
| 2022 年 7 月 6 日 |
发布了 Amazon ParallelCluster 版本 3.1.4 | 发布了 Amazon ParallelCluster 版本 3.1.4。
错误修复:
-
修复了使用带 --filters 选项的 export-cluster-logs 命令时导出集群日志的功能。
-
修复了 Amazon Batch Docker 入口点以使用 /home 共享目录来协调多节点并行作业执行。
-
在将 slurm 不正常静态节点设置为关闭状态时重置节点地址,以避免将由于容量不足而失败的静态节点视为引导失败节点。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 5 月 16 日 |
发布了 Amazon ParallelCluster 版本 3.1.3 | 发布了 Amazon ParallelCluster 版本 3.1.3。
增强功能:
-
当切换到其他用户以及在以其他用户身份执行命令时,例如在 SSH 登录期间,将会执行 SSH 密钥创建并创建主目录。
-
在配置参数 DirectoryService/DomainName 中添加了对 FQDN 和 LDAP 可分辨名称的支持。新验证器现在会检查这两种语法。
-
头节点上部署的新 update_directory_service_password.sh 脚本支持手动更新 SSSD 配置中的 Active Directory 密码。Amazon Secrets Manager 从集群配置中检索该密码。
-
添加了对在没有默认 VPC 的环境中部署 API 基础架构的支持。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub | 2022 年 4 月 20 日 |
发布了 Amazon ParallelCluster 版本 3.1.2 | 发布了 Amazon ParallelCluster 版本 3.1.2。
有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包的CHANGELOG 文件。 GitHub | 2022 年 3 月 2 日 |
发布了 Amazon ParallelCluster 版本 3.1.1 | 发布了 Amazon ParallelCluster 版本 3.1.1。
-
通过与通过 Amazon Directory Service 托管的 Active Directory (AD) 域集成,添加了对多用户集群环境的支持。
-
在集群配置文件中添加了对 UseEc2Hostnames 的支持。如果设置为 true,则对计算节点使用 EC2 默认主机名(例如 ip-1-2-3-4)。
-
添加了对在没有互联网访问权限的子网中创建集群的支持。
-
添加了对每个队列包含多种计算实例类型的支持。
-
在使用 NVIDIA 卡的 ARM 实例上添加了对使用 Slurm 进行 GPU 调度的支持。
-
将 cluster-name (-n )、region (-r )、image-id (-i ) 和 cluster-configuration /image-configuration (-c ) 的缩写标志添加到了 Amazon ParallelCluster CLI。
-
为适用于 Lustre 的 FSx AutoImportPolicy 参数添加了对 NEW_CHANGED_DELETED 选项的支持。
-
将 parallelcluster:compute-resource-name 标签添加到了计算节点使用的 EC2 LaunchTemplates 资源。
-
改进了在集群中创建的安全组,在为某些头节点和/或队列指定 SecurityGroups 参数的情况下,允许来自自定义安全组的入站连接。
-
为 ARM 安装 NVIDIA 驱动程序和 CUDA 库。
更改:
-
将 Slurm 升级到版本 21.08.5 (从 20.11.8 )。
-
将 Slurm 插件升级到版本 21.08 (从 20.11 )。
-
将 NICE DCV 升级到版本 2021.3-11591 (从 2021.1-10851 )。
-
将 NVIDIA 驱动程序升级到版本 470.103.01 (从 470.57.02 )。
-
将 NVIDIA Fabric Manager 升级到版本 470.103.01 (从 470.57.02 )。
-
将 CUDA 升级到版本 11.4.4 (从 11.4.0 )。
-
Intel MPI 更新至 2021 年版更新 4(从 2019 年版更新 8 进行更新)。有关更多信息,请参阅 Intel® MPI Library 2021 更新 4。
-
将 PMIx 升级到版本 3.2.3 (从 3.1.5 )。
-
删除了将失败的计算节点转储到 /home/logs/compute 。计算节点日志文件在 EC2 控制台日志中 CloudWatch 和控制台日志中均可用。
-
启用潜在抑制 SlurmQueues 和 ComputeResources 长度验证器。
-
在 Amazon Linux 2 上禁用实例启动时的程序包更新。
-
在构建Amazon ParallelCluster自定义映像时禁用 EC2 ImageBuilder 增强型图像元数据。
-
将 cloud-init 数据源显式设置为 EC2。这可节省 Ubuntu 和 CentOS 平台的启动时间。
-
在计算实例集启动模板名称中使用计算资源名称而不是实例类型。
-
将 stderr 和 stdout 重定向到 CLI 日志文件,以防止 pcluster CLI 输出中出现不需要的文本。
-
将配置/安装食谱移动到从主程序调用的单独说明书中。现有的入口点保持不变,并且向后兼容。
-
在 AMI 构建期间下载 Intel HPC 平台的依赖项,以避免在集群创建期间联系互联网。
-
配置 Slurm 节点时不从计算资源名称中删除 - 。
-
未安装 NVIDIA 驱动程序时,不在 Slurm 中配置 GPU。
-
修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。
-
修复了未指定前缀时的集群日志导出问题,以前导出为 None 前缀。
-
修复了集群更新失败时不执行回滚的问题。
-
修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。
-
修复了 HeadNode 的 RootVolume 架构,如果指定了不支持的 KmsKeyId ,则会引发错误。
-
修复 Amazon FSx 缺少要在控制面板中显示的 CloudWatch 指标。
-
修复了 EfaSecurityGroupValidator 。以前,在提供自定义安全组并启用 EFA 的情况下,它可能会产生假失败。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub | 2022 年 2 月 10 日 |
发布了 Amazon ParallelCluster 版本 3.0.3 | 发布了 Amazon ParallelCluster 版本 3.0.3。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub | 2022 年 1 月 17 日 |
发布了 Amazon ParallelCluster 版本 3.0.2 | 发布了 Amazon ParallelCluster 版本 3.0.2。
将 Elastic Fabric Adapter 安装程序升级到 1.14.1
-
EFA 配置:efa-config-1.9-1 (从 efa-config-1.9 )
-
EFA 配置文件:efa-profile-1.5-1 (从 efa-profile-1.5 )
-
EFA 内核模块:efa-1.14.2 (从 efa-1.13.0 )
-
RDMA 内核:rdma-core-37.0 (从 rdma-core-35 )
-
libfabric:libfabric-1.13.2 (从 libfabric-1.13.0 )
-
Open MPI:openmpi40-aws-4.1.1-2 (无变化)
如果实例类型支持,则始终启用 GPUDirect RDMA。GdrSupport配置选项无效。 有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub | 2021 年 11 月 5 日 |
发布了 Amazon ParallelCluster 版本 3.0.1 | 发布了 Amazon ParallelCluster 版本 3.0.1。
默认 Amazon Web Services 区域从 ~/.aws/config 文件读取数据
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub | 2021 年 10 月 27 日 |
发布了 Amazon ParallelCluster 版本 3.0.0 | 发布了 Amazon ParallelCluster 版本 3.0.0。
支持通过 Amazon API Gateway 进行集群管理
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub | 2021 年 9 月 10 日 |