Amazon ParallelCluster
更改 |
描述 |
日期 |
Amazon ParallelCluster 3.12.0 版本已发布
|
要升级,请输入以下内容:sudo pip install --upgrade aws-parallelcluster 。
增强功能:
-
添加新的构建映像配置部分Build/Installation 以打开/关闭 NVIDIA 软件和 Lustre 客户端安装。默认情况下,NVIDIA 软件虽然包含在官方版本中 ParallelCluster AMIs,但并未由安装build-image 。默认情况下,已安装 Lustre 客户端。
-
现在,CLI 命令export-cluster-logs 和export-image-logs 可以默认将日志导出到默认 ParallelCluster 存储桶或 customs3Bucket(如果在配置中指定)。
-
在 ARM 实例上将 Amazon DCV 支持扩展到 Ubuntu2204。
更改:
-
将 NVIDIA 驱动程序升级到版本 550.127.08(从 550.90.07 开始)。这解决了 NVIDIA 的一个已知问题。有关更多信息,请参阅 NVIDIA 数据中心文档中的已知问题。
-
将 Amazon DCV 升级到版本2024.0-18131 。
-
将 EFA 安装程序升级到 1.36.0 。
-
Efa-driver:efa-2.13.0-1
-
Efa-config:efa-config-1.17-1
-
Efa-profile:efa-profile-1.7-1
-
Libfabric-aws:libfabric-aws-1.22.0-1
-
Rdma-core:rdma-core-54.0-1
-
Open MPI:openmpi40-aws-4.1.7-1 和 openmpi50-aws-5.0.5
-
失败时自动重启 slurmctld。
-
升级 mysql-community-client到 8.0.39 版。
-
移除对 Python 3.7 和 3.8 的支持,它们已经过时了。
错误修复:
-
修复了集群更新期间未检测到自定义操作脚本序列更改的问题。
-
为 Amazon ParallelCluster API 添加缺少的权限,以便为 Elastic Load Balancing 和 Auto Scaling 创建服务关联角色,这些角色是部署登录节点所必需的。
-
修复了我们在管理卷时获取区域的方式中的一个问题,使其能够正确处理本地区域。
-
修复了在更新AccessPointIds 期间添加 EFS 文件系统会失败的问题。
-
修复了在使用 PCAPI 时,更新非类型的参数时集群更新可能失败的问题String (例如,MaxCount )。
-
挂载外部 OpenZFS 时,不再需要为端口 111、2049、20001、20002、20003 设置出站规则。
|
2024 年 12 月 19 日
|
Amazon ParallelCluster 3.11.1 版本已发布
|
功能:
-
Pyxis 现在默认为禁用状态,因此必须按照产品文档中的说明手动启用。
-
在 Lambd ParallelCluster a 层中将 Python 运行时升级到版本 3.12。
-
不再将 setuptools 的版本固定为 70.0.0 之前的版本。
-
将 libjwt 升级到 1.17.0 版本。
完整更改日志
错误修复
|
2024 年 10 月 21 日
|
Amazon ParallelCluster 3.11.0 版本已发布
|
增强功能
添加对登录节点上的自定义操作的支持。 允许 DCV 连接到登录节点。 添加对 ap-southeast-3 区域的支持。 向登录节点网络负载均衡器添加安全组。 为登录节点添加AllowedIps 配置。 添加新配置SharedStorage/EfsSettings/AccessPointId 以为装载指定可选的 EFS 接入点 允许最多 10 个登录节点池。 在官方 pcluster 中安装 enroot 和 pyxis AMIs
更改
[B REAKING] API DescribeCluster 和 CLI 命令返回的loginNodes 字段describe-cluster 已从字典更改为数组,以支持多个登录节点池。此更改破坏了向后兼容性,使这些操作与使用旧版本部署的集群不兼容。
将 Slurm 升级到 23.11.10(从 23.11.7 开始)。 将 Pmix 升级到 5.0.3(从 5.0.2 开始)。 将 EFA 安装程序升级到 1.34.0 。
Efa-driver:efa-2.10.0-1 Efa-config:efa-config-1.17-1 Efa-profile:efa-profile-1.7-1 Libfabric-aws:libfabric-aws-1.22.0-1 Rdma-core:rdma-core-52.0-1 Open MPI:openmpi40-aws-4.1.6-3 和 openmpi50-aws-5.0.3-11
将 NVIDIA 驱动程序升级到版本 550.90.07(从 535.183.01 开始)。 将 CUDA 工具包升级到版本 12.4.1(从 12.2.2 开始)。 将 Python 升级到 3.9.20(从 3.9.19 开始)。 将英特尔 MPI 库升级到 2021.13.1.769(从 2021.12.1.8 开始)。
错误修复
修复验证器,EfaPlacementGroupValidator 使其在使用容量块时不建议配置置放群组。 确保 FSx 按照安全组规则创建 for Lustre 文件系统,修复偶尔出现的集群创建失败。 修复启用置放群组时集群删除失败的问题。 修复了在限制 SSH 访问时登录节点被标记为不健康的问题。 修复后retrieve_supported_regions ,它可以获得正确的 S3 网址。 修复describe_images 为使用分页。 No route tables found 修复了在/ LoginNodesNetworking/ SubnetIds 中指定默认 VPC 子网时的错误。
|
2024 年 9 月 26 日
|
Amazon ParallelCluster 3.10.1 版本已发布
|
错误修复
|
2024 年 7 月 8 日
|
Amazon ParallelCluster 3.10.0 版本已发布
|
增强功能:
更改:
-
不再支持 CentOS 7。
-
将 Cinc Client 从 18.2.7 升级到 18.4.12 版本。
-
将 munge 升级到版本 0.5.16(从 0.5.15 开始)。
-
将 Pmix 升级到 5.0.2(从 4.2.9 开始)。
-
升级第三方说明书依赖项:
-
移除第三方食谱:selinux-6.1.12。
-
将 EFA 安装程序升级到 1.32.0 。
-
Efa-driver:efa-2.8.0-1
-
Efa-config:efa-config-1.16-1
-
Efa-profile:efa-profile-1.7-1
-
Libfabric-aws:libfabric-aws-1.21.0-1
-
Rdma-core:rdma-core-50.0-1
-
Open MPI:openmpi40-aws-4.1.6-3 和 openmpi50-aws-5.0.2-12
-
将 NVIDIA 驱动程序升级到版本 535.183.01(从 535.154.05 开始)。
-
将 Python 升级到 3.9.19(从 3.9.17 开始)。
-
将英特尔 MPI 库升级到 2021.12.1.8(从 2021.9.0.43482 起)。
错误修复:
-
将数据存储库关联配置修复为AutoExportPolicy 可AutoImportPolicy 选配置。
-
修复了集群删除期间的一个问题,该问题现在可以在实例处于关闭或终止状态时完成计算队列清理。这是为了避免终止周期较长的实例类型的集群删除失败。
-
允许在集群配置Monitoring 部分启用 cloudwatch 控制面板并禁用警报。
-
允许 ParallelCluster 自定义资源使用禁止验证器。PclusterCluster/SuppressValidators
-
将其删除,/etc/profile.d/pcluster.sh 这样就不会在每次用户登录时执行该操作,cfn_bootstrap_virtualenv 也不会将其添加到 PATH 环境变量中。
-
通过将字段failureReason 替换为DescribeCluster 响应来修复 ParallelCluster API 规范。failures
-
通过添加缺失的 CloudFormation 堆栈状态来修复 ParallelCluster API 规范:IMPORT_* 、REVIEW_IN_PROGRESS 和UPDATE_FAILED 。
-
修复了阻止集群更新包含传输中加密的 EFS 文件系统的问题。
-
修复了在将 EFS 用于共享内部数据时,slurmctld 和 slurmdbd 服务无法在头节点重启时重新启动的问题。
-
在 Ubuntu 系统上,删除与来自 Parallelcluster 的配置冲突的云初始化日志文件的默认 logrotate 配置。
-
使用 RHEL 8.10 或更高版本修复图像构建失败。
|
2024 年 6 月 27 日
|
Amazon ParallelCluster 3.9.3 版本已发布
|
要进行升级,请键入 sudo pip install --upgrade aws-parallelcluster
功能:
错误修复:
|
2024 年 6 月 19 日
|
Amazon ParallelCluster 3.9.2 版本已发布
|
功能:
|
2024 年 5 月 28 日
|
Amazon ParallelCluster 3.9.1 版本已发布
|
要进行升级,请输入以下内容:sudo pip install --upgrade
aws-parallelcluster
错误修复
|
2024 年 4 月 11 日
|
Amazon ParallelCluster 3.9.0 版本已发布
|
要进行升级,请输入以下内容:sudo pip install --upgrade
aws-parallelcluster
增强功能:
-
添加配置参数 DeploymentSettings/DefaultUserHome ,使用户能够将默认用户的主目录移到 /local/home 而不是 /home (默认)。
-
允许更新 MinCount 、MaxCount 、Queue 和 ComputeResource 配置参数,而无需停止计算实例集。现在可以通过将 Scheduling/SlurmSettings/QueueUpdateStrategy 设置为 TERMINATE 来更新它们。 Amazon ParallelCluster 只终止通过集群更新调整集群容量时移除的节点。
-
允许在 FileCache 不替换计算和登录队列的情况下更新 Efs FsxLustre FsxOntap、、 FsxOpenZfs 和类型的外部共享存储。
-
添加对的支持 RHEL9。
-
增加了对 Rocky Linux 9 的支持,作为通过 build-image 过程创建的 CustomAmi 。目前还没有官方的 Amazon ParallelCluster Rocky9 Linux AMI 可用。
-
CommunicationParameters 从 “自定义 Slurm 设置” 拒绝列表中移除。
-
在支持 OSes中添加DeploymentSettings/DisableSudoAccessForDefaultUser 参数以禁用默认用户的 sudo 访问权限。
-
对 FSx 于 Lustre 文件系统的更改由 ParallelCluster以下人员创建:将 Lustre 服务器版本更改为 2.15.
-
通过 ['cluster']['nvidia']['kernel_open'] cookbook 节点属性,增加在构建 AMI 时选择开放源代码和封闭源代码 Nvidia 驱动程序的可能性。
-
* 添加 clustermgtd 配置选项ec2_instance_missing_max_count 以允许可配置的重试次数,以实现最终的 A EC2 mazon 描述实例与运行的实例保持一致。
更改
-
将 Slurm 升级到 23.11.4(从 23.02.7 开始)。
-
将 NVIDIA 驱动程序升级到版本 535.154.05。
-
在 pcluster CLI 中添加对 Python 3.11、3.12 的支持,以及。 aws-parallelcluster-batch-cli
-
使用 Amazon EC2 DescribeInstances 响应NetworkCardIndex 列表中的网卡索引构建网络接口,而不是遍历MaximumNetworkCards 范围。
-
使用 P3、G3、P2 和 G2 类型实例时,集群创建失败,因为其 GPU 架构与 3.8.0 版中引入的开源 Nvidia 驱动程序(OpenRM)不兼容。
-
升级第三方 cookbook 依赖项:nfs-5.1.2(从 nfs-5.0.0 升级)
-
将 EFA 安装程序升级到 1.30.0.
-
Efa-driver:efa-2.6.0-1
-
Efa-config:efa-config-1.15-1
-
Efa-profile:efa-profile-1.6-1
-
Libfabric-aws:libfabric-aws-1.19.0
-
Rdma-core:rdma-core-46.0-1
-
Open MPI:openmpi40-aws-4.1.6-2 和 openmpi50-aws-5.0.0-11
-
将 NICE DCV 升级到版本 2023.1-16388.
错误修复
-
修复以 Active Directory 用户身份从登录节点提交作业时会失败的问题。该问题是由于在头节点上与外部 Active Directory 集成的配置不完整造成的。
-
重构在 CloudFormation 模板 parallelclusser-policies.yaml 中定义的 IAM 策略,以防止 ParallelCluster 因策略超过 IAM 限制而导致 API 部署失败。
-
修复当头节点写入密钥的时间超过预期时,登录节点启动失败的问题。
有关更改的详细信息,请参阅上的aws-parallelcluster-ui软件包CHANGELOG 文件 GitHub。
|
2024 年 3 月 5 日
|
Amazon ParallelCluster 3.8.0 版本已发布
|
Amazon ParallelCluster 3.8.0 版本已发布。
增强功能:
-
添加对 Amazon 机器学习 EC2 容量块的支持。
-
增加了对 Rocky Linux 8 的支持,作为通过 build-image 过程创建的 CustomAmi 。目前还没有官方的 Amazon ParallelCluster Rocky8 Linux AMI 可用。
-
添加Scheduling/ScalingStrategy 参数以控制启动 Slurm 计算节点的 Amazon EC2 实例时要使用的集群扩展策略。可能的值为 all-or-nothing 、greedy-all-or-nothing 、best-effort ,默认值为 all-or-nothing 。
-
添加HeadNode/SharedStorageType 参数以使用 EFS 存储,而不是从头节点根卷导出 NFS 来存储集群内共享文件系统资源:Intel ParallelCluster、Slurm 和数据。/home 此增强功能减少了头节点联网的负载。
-
允许通过配置文件SharedStorage 部分/home 作为 EFS 或 FSx 外部共享存储进行安装。
-
添加新参数SlurmSettings/MungeKeySecretArn 以允许使用来自 Secrets Manager 的外部用户定义的 MUNGE Amazon 密钥。
-
添加Monitoring/Alarms/Enabled 参数以切换集群的 Amazon CloudWatch 警报。
-
添加头节点警报以监控 Amazon 运行 EC2 状况检查、CPU 利用率和头节点的整体状态,并将其添加到使用集群创建的 CloudWatch 控制面板中。
-
将 as 用于托管 Lustre 时PERSISTENT_2 ,添加DeploymentType 对数据存储库关联 FSx 的支持。
-
添加Scheduling/SlurmSettings/Database/DatabaseName 参数以允许用户为数据库服务器上用于 Slurm 记账的数据库指定自定义名称。
-
在计算资源中配置 CapacityReservationTarget/CapacityReservationId 时,将 InstanceType 作为可选配置参数。
-
增加为 Amazon ParallelCluster API 创建的 IAM 角色和策略指定前缀的可能性。
-
增加了为由 Amazon ParallelCluster API 创建的 IAM 角色和策略指定要应用的权限边界的可能性。
更改
-
将 Slurm 升级到 23.02.7(从 23.02.6 开始)。
-
将 NVIDIA 驱动程序升级到版本 535.129.03。
-
将 CUDA 工具包升级到版本 12.2.2。
-
使用开源 NVIDIA GPU 驱动程序(OpenRM)作为 Linux 的 NVIDIA 内核模块,而不是 NVIDIA 封闭源代码模块。
-
移除 Slurm 恢复程序中对all_or_nothing_batch 配置参数的支持,转而使用新的Scheduling/ScalingStrategy 集群配置。
-
将集群警报命名约定更改为“[cluster-name]-[component-name]-[metric]”。
-
将 ADC 区域中根卷和附加卷的默认 EBS 卷类型从 gp2 更改为 gp3。
-
API 的可选权限边界现已应用于 Amazon ParallelCluster API 基础设施创建的每个 IAM 角色。
-
将 EFA 安装程序升级到 1.29.1 。
-
Efa-driver:efa-2.6.0-1
-
Efa-config:efa-config-1.15-1
-
Efa-profile:efa-profile-1.5-1
-
Libfabric-aws:libfabric-aws-1.19.0-1
-
Rdma-core:rdma-core-46.0-1
-
Open MPI:openmpi40-aws-4.1.6-1
-
除了使用 2.3.1 版本的 Centos 7 之外 OSes,所有支持版本都升级 GDRCopy 到 2.4 版。
-
将 aws-cfn-bootstrap 升级到版本 2.0-28。
-
在中添加对 Python 3.10 的 aws-parallelcluster-batch-cli支持。
错误修复
-
修复了在修改计算资源中声明的实例类型列表时,集群更新回滚后扩展配置不一致的问题。
-
修复了通过集群配置文件与外部 LDAP 服务器集成的集群中切换无 root 权限用户时的用户 SSH 密钥生成问题。
-
修复了设置时禁用 Slurm 省电模式的问题。ScaledownIdletime =
-1
-
修复 Slurm Accounting update_slurm_database_password.sh 脚本中指向 Slurm 安装目录的硬编码路径。
|
2023 年 12 月 19 日
|
Amazon ParallelCluster 3.7.2 版本已发布
|
Amazon ParallelCluster 3.7.2 版本已发布。
更改:
|
2023 年 10 月 25 日
|
Amazon ParallelCluster 3.7.1 版本已发布
|
Amazon ParallelCluster 3.7.1 版本已发布。
更改:
|
2023 年 9 月 22 日
|
Amazon ParallelCluster 3.7.0 版本已发布
|
Amazon ParallelCluster 3.7.0 版本已发布。
增强功能:
-
Support 使用配置 YAML 文件在计算资源中 Amazon ParallelCluster 配置静态和动态节点优先级。
-
增加了对 Ubuntu 22 的支持。默认情况下不支持 RSA 密钥。
-
添加了队列配置设置 JobExclusiveAllocation ,用于在任何给定时间在分区中以独占模式将节点分配给单个作业。
-
允许在创建集群和更新集群时覆盖 aws-parallelcluster-node 程序包。对于头节点,这适用于集群更新。仅用于开发目的。
-
避免在计算节点上启动 NFS 服务器。
-
添加了对登录节点的支持。
-
当为 Slurm 计算资源指定了多种实例类型时,允许进行基于内存的调度。
-
添加了支持,允许将现有 Amazon 文件缓存作为共享存储进行挂载。
更改:
-
默认情况下,将 Slurm 动态节点的优先级(权重)分配为 1000。通过这样做,Slurm 可以将闲置的静态节点优先于空闲的动态节点。
-
使aws-parallelcluster-node 守护程序只能处理 Amazon ParallelCluster
托管的 Slurm 分区。
-
将 EFS-utils 监视器轮询间隔增加到 10 秒。当 EncryptionInTransit 设置为 true 时(这是导致监视器运行的唯一条件),此更改适用。
-
将 EFA 安装程序升级到 1.25.1 。
-
Efa-driver:efa-2.5.0-1 (从 efa-2.1.1g )
-
Efa-config:efa-config-1.15-1 (从 efa-config-1.13-1 )
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.18.1-0 (从 libfabric-aws-1.17.1-1 )
-
Rdma-core:rdma-core-46.0-1 (从 rdma-core-43.0-1 )
-
Open MPI:openmpi40-aws-4.1.5-4 (从
openmpi40-aws-4.1.5-1 )
-
将 Slurm 升级到 23.02.4 版。
-
将 Imds/ 的默认值ImdsSupport 从 v1.0 更改为 v2.0。
-
弃用 Ubuntu 18。
-
将默认根卷大小更新为 40 GB,以补偿对 Centos 7 的限制。
-
限制头节点内对 file /tmp/wait _condition_handle.txt 的权限,这样只有 root 用户才能读取它。
-
创建一个 Slurm 分区节点列表映射 JSON 文件,供节点程序包进程守护程序用来识别 PC 托管的 Slurm 分区和节点列表。
-
将 NVIDIA 驱动程序升级到版本 535.54.03。
-
将 CUDA 库升级到版本 12.2.0。
-
将 NVIDIA Fabric Manager 升级到 nvidia-fabricmanager-535。
-
将 ARM PL 升级到版本 23.04.1,仅适用于 Ubuntu 22.04。
-
将 NICE DCV 升级到版本 2023.0-15487 。
错误修复:
-
为 ScaledownIdletime 值添加验证功能,以防止设置的值低于 -1。
-
修复了在启用 DCV 的 GPU 实例上使用 Ubuntu 深度学习 AMI 创建集群失败的问题。
-
修复了使用创建 ParallelCluster CloudFormation 自定义资源提供商时导致创建悬而未决的 IAM 策略的问题 CustomLambdaRole。
-
修复了使用等于 True 的 SlurmSettings/Dns/UseEc2Hostnames 时导致具有多个网络接口的实例上的计算节点 DNS 名称不一致的问题
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2023 年 8 月 30 日
|
仅文档发布
|
Amazon ParallelCluster 第 3 版特定用户指南已发布。
仅文档发布:
|
2023 年 7 月 17 日
|
Amazon ParallelCluster 版本 3.6.1 已发布
|
Amazon ParallelCluster 3.6.1 版本已发布。
更改:
错误修复:
-
删除根卷设备名称(/dev/sda1 和/dev/xvda )的硬编码,然后从期间 AMIs 使用的中检索它create-cluster 。
-
修复使用ElasticIp 设置为的 CloudFormation 自定义资源时集群创建失败的问题True 。
-
修复使用包含大型配置文件的 Amazon CloudFormation 自定义资源时集群创建和更新失败的问题。
-
修复了无法在 Ubuntu 上禁用 ptrace 保护并且不允许在 libfabric 中进行跨内存附加 (CMA) 的问题。
-
修复了使用多个实例类型且未返回任何实例时的快速容量不足故障转移逻辑。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2023 年 7 月 5 日
|
Amazon ParallelCluster 3.6.0 版本已发布
|
Amazon ParallelCluster 3.6.0 版本已发布。
文档:
增强功能:
更改:
-
将 Slurm 升级到版本23.02.2 (从版本22.05.8 开始)。
-
将 munge 升级到版本 0.5.15 (从版本 0.5.14 )。
-
将 Slurm 设置为 30 TreeWidth 。
-
将 Slurm prolog 和epilog 配置分别设置为目标目录/opt/slurm/etc/scripts/prolog.d/ 和。/opt/slurm/etc/scripts/epilog.d/
-
将 Slurm 设置为 3 分钟BatchStartTimeout ,以便在注册计算节点期间运行Prolog 脚本。
-
将 CloudWatch 日志RetentionInDays 的默认值从 14 天增加到 180 天。
-
将 EFA 安装程序升级到 1.22.1 。
-
Dkms:2.8.3-2
-
Efa-driver:efa-2.1.1g (无变化)
-
Efa-config:efa-config-1.13-1 (无变化)
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.17.1-1 (从 libfabric-aws-1.17.0-1 )
-
Rdma-core:rdma-core-43.0-1 (无变化)
-
Open MPI:openmpi40-aws-4.1.5-1 (无变化)
-
在 Amazon Linux 2 上将 Lustre 客户端版本升级到 2.12 。Lustre 客户端 2.12 已经安装在 Ubuntu 20.04、18.04 和 CentOS >= 7.7 上。
-
在 CentOS 7.6 上将 Lustre 客户端版本升级到 2.10.8 。
-
将 NVIDIA 驱动程序升级到版本 470.182.03 (从版本 470.141.03 )。
-
将 NVIDIA Fabric Manager 升级到版本 470.182.03 (从版本 470.141.03 )。
-
将 NVIDIA CUDA Toolkit 升级到版本 11.8.0 (从版本 11.7.1 )。
-
将 NVIDIA CUDA 示例升级到版本 11.8.0 。
-
将 Intel MPI Library 升级到 2021 年版更新 9(从 2021 年版更新 6)。有关更多信息,请参阅 Intel® MPI Library 2019 更新 9。
-
将 NICE DCV 升级到版本 2023.0-15022 (从版本 2022.2-14521 )。
-
server:2023.0.15022-1 (从版本 2022.2-14521-1 )。
-
xdcv:2023.0.547-1 (从版本 2022.2.519-1 )。
-
gl:2023.0.1027-1 (从版本 2022.2.1012-1 )。
-
web_viewer:2023.0.15022-1 (从版本 2022.2.14521-1 )。
-
将 aws-cfn-bootstrap 升级到版本 2.0-24 。
-
升级 CodeBuild 环境在为 Batc Amazon h 集群构建容器镜像时使用的镜像:
错误修复:
-
修复 Amazon EFS 和亚马逊 FSx 网络安全组验证器,以避免报告虚假错误。
-
修复了 Image Builder 在 build-image 操作期间创建的资源缺少标记的问题。
-
修复了 MaxCount 的更新策略,使其始终对 MaxCount 属性进行数值比较。
-
修复了具有多个网卡的计算节点实例上的 IP 一致性问题。
-
修复了StoragePass 在执行队列参数更新且未更新 Slurm 记账配置slurm_parallelcluster_slurmdbd.conf 时替换的问题。
-
修复了使用现有 EFS 文件系统创建集群时导致创建虚安全组的问题。
-
修复了重启 cfn-hup 进程守护程序时导致其失败的问题。
-
在 Slurm 保护模式下,将带有INVALID_REG 标记的动态节点视为引导失败。在 Slurm 注册失败之后,静态节点已被视为引导失败。node_replacement_timeout
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2023 年 5 月 22 日
|
Amazon ParallelCluster 3.5.1 版本已发布
|
Amazon ParallelCluster 3.5.1 版本已发布。
增强功能:
更改:
错误修复:
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2023 年 3 月 29 日
|
Amazon ParallelCluster 3.5.0 版本已发布
|
Amazon ParallelCluster 3.5.0 版本已发布。
增强功能:
-
使用 Amazon ParallelCluster UI 访问和管理集群。
-
在 CloudFormation 模板中添加版本化 Amazon ParallelCluster 策略,供您在工作负载中引用。
-
添加可与自己的代码一起使用的 Amazon ParallelCluster Python 库。
-
在计算节点引导失败时向 Amaz CloudWatch on 添加计算节点控制台输出的日志记录。
-
集群创建失败时向 describe-cluster 输出中添加了包含失败代码和原因的失败字段。
-
添加了验证器以防止在调用子进程模块时注入恶意字符串。
-
在配置静态节点时,如果集群状态更改为 PROTECTED ,则集群创建将失败。
更改:
错误修复:
-
启用 Slurm 记账后,通过验证集群名称是否不超过 40 个字符来修复集群数据库创建问题。
-
修复了在 clustermgtd Amazon EC2 实例状态检查失败时导致通过 Slurm 重启的计算节点被替换的问题。
-
修复了由于头节点上的 IAM 策略不正确而导致与其他账户共享容量预留的计算节点无法启动的问题。
有关更改的详细信息,请参阅上的 aws-parallelcluster、aws-parallelcluster-cookbookaws-parallelcluster-node、和软件包的CHANGELOG 文件。aws-parallelcluster-ui GitHub
|
2023 年 2 月 20 日
|
Amazon ParallelCluster 3.4.1 版本已发布
|
Amazon ParallelCluster 3.4.1 版本已发布。
错误修复:
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2023 年 1 月 13 日
|
Amazon ParallelCluster 3.4.0 版本已发布
|
Amazon ParallelCluster 3.4.0 版本已发布。
增强功能:
更改:
-
取消为现有文件系统创建 Amazon EFS 挂载目标。
-
使用 amazon-efs-utils 挂载 EFS 文件系统。可以使用传输中加密和 IAM 授权用户来挂载 EFS 文件系统。
-
在 Cent OS7 和 Ubuntu 上安装 stunnel 5.67 以支持 EFS 传输中加密。
-
将 EFA 安装程序升级到 1.20.0 (从 1.18.0 )。
-
Efa-driver:efa-2.1 (从 efa-1.16.0-1 )
-
Efa-config:efa-config-1.11-1 (无变化)
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.16.1 (从 libfabric-aws-1.16.0~amzn4.0-1 )
-
Rdma-core:rdma-core-43.0-2 (从 rdma-core-41.0-2 )
-
Open MPI:openmpi40-aws-4.1.4-3 (从 openmpi40-aws-4.1.4-2 )
-
将 Slurm 升级到版本 22.05.7 (从 22.05.5 )。
-
将 Python 升级到 3.9.16 和 3.7.16 (从 3.9.15 和 3.7.13 )。
-
使用 Slurm22.05.7 ,处于IDLE+CLOUD+COMPLETING+POWER_DOWN+NOT_RESPONDING 状态的动态节点不会被视为不健康。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2022 年 12 月 22 日
|
Amazon ParallelCluster 3.3.1 版本已发布
|
Amazon ParallelCluster 3.3.1 版本已发布。
更改:
错误修复:
有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包CHANGELOG 文件。 GitHub
|
2022 年 12 月 2 日
|
Amazon ParallelCluster 仅限文档 hpc6id 注意
|
Amazon ParallelCluster 仅限文档的更新
|
2022 年 12 月 2 日
|
Amazon ParallelCluster 3.1.5 版本已发布
|
Amazon ParallelCluster 3.1.5 版本已发布。
增强功能:
-
修复了阻止空闲节点终止的 Slurm 问题。
-
将 EFA 安装程序升级到 1.18.0
-
Efa-driver:efa-1.16.0-1
-
Efa-config:efa-config-1.11-1 (从 efa-config-1.9-1 )
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1 (从 libfabric-1.13.2 )
-
Rdma-core:rdma-core-41.0-2 (从 rdma-core-37.0 )
-
Open MPI:openmpi40-aws-4.1.4-2 (从 openmpi40-aws-4.1.1-2 )
更改:
-
将lambda:ListTags 和lambda:UntagResource 添加到ParallelClusterUserRole 用于集群更新的 Amazon ParallelCluster API 堆栈中。
-
将 Intel MPI Library 升级到 2021 年版更新 6(从 2021 年版更新 4)。有关更多信息,请参阅 Intel® MPI Library 2021 更新 6。
-
将 NVIDIA 驱动程序升级到版本 470.141.03(从 470.103.01)。
-
将 NVIDIA Fabric Manager 升级到版本 470.141.03(从 470.103.01)。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2022 年 11 月 16 日
|
Amazon ParallelCluster 3.3.0 版本已发布
|
Amazon ParallelCluster 3.3.0 版本已发布。
增强功能:
更改:
-
更改 SlurmQueues/网络 //的行为Enabled 。PlacementGroup现在,它会为每个计算资源创建一个唯一的托管置放群组,而不是为所有计算资源创建一个托管置放群组。
-
添加对 SlurmQueues/网络/PlacementGroup/名称作为首选命名方法的支持。
-
将头节点标签从启动模板移动到了实例定义中,以避免在标签更新时替换头节点。
-
通过 cloud-init 执行的脚本而不是通过启动模板中设置的 CpuOptions 禁用多线程处理。
-
在 API 基础架构、API Docker 容器和集群 Lambda 资源中将 Python 升级到版本 3.9,将 NodeJS 升级到版本 16。
-
在 aws-parallelcluster-batch-cli 中删除了对 Python 3.6 的支持。
-
将 Slurm 升级到版本 22.05.5 (从 21.08.8-2 )。
-
将 NVIDIA 驱动程序升级到版本 470.141.03 (从 470.129.06 )。
-
将 NVIDIA Fabric Manager 升级到版本 470.141.03 (从 470.129.06 )。
-
将 NVIDIA CUDA Toolkit 升级到版本 11.7.1(from 11.4.4 )。
-
将 v Amazon ParallelCluster irtualenvs 中使用的 Python 从3.7.13 升级到。3.9.15
-
将 EFA 安装程序升级到版本 1.18.0。
-
Efa-driver:efa-1.16.0-1 (无变化)
-
Efa-config:efa-config-1.11-1 (from
efa-config-1.10-1 )
-
Efa-profile:efa-profile-1.5-1 (无变化)
-
Libfabric-aws:libfabric-aws-1.16.0~amzn4.0-1 (从 libfabric-aws-1.16.0~amzn2.0-1 )
-
Rdma-core:rdma-core-41.0-2 (从 rdma-core-37.0 )
-
Open MPI:openmpi40-aws-4.1.4-2 (从 openmpi40-aws-4.1.1-2 )
-
将 NICE DCV 升级到版本 2022.1-13300 (从 2022.0-12760 )。
-
为 Queues 启用 SingleSubnetValidator 抑制。
-
当节点处于 COMPLETING 状态时不替换 DRAIN 节点,因为 Epilog 可能仍在运行。
错误修复:
-
修复了 Amazon ParallelCluster
ListClusterLogStreams 命令中过滤器参数的验证失败的问题,即当传递的过滤器不正确时。
-
修复了与EfsSettings其他 SharedStorageSharedStorage/参数一起指定FileSystemId 时无法验证EfsSettings参数/的问题。以前不包括 FileSystemId 。
-
修复了在配置中更改 SharedStorage 的顺序以及进行其他更改时的集群更新问题。
-
修复UpdateParallelClusterLambdaRole 了将日志上传到 Amazon ParallelCluster 的 API CloudWatch。
-
修复了在执行任何说明书之前安装程序包时 Cinc 不使用本地 CA 证书捆绑包的问题。
-
修复了在设置 Build:UpdateOsPackages:Enabled:true 后使用 pcluster build-image 升级 ubuntu 时出现的挂起问题。
-
修复了 YAML 集群配置分析在遇到重复密钥时失败的问题。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2022 年 11 月 2 日
|
Amazon ParallelCluster 添加了仅限文档的 API 参考。
|
Amazon ParallelCluster 仅限文档的更新
|
2022 年 10 月 27 日
|
Amazon ParallelCluster 3.2.1 版本已发布
|
Amazon ParallelCluster 3.2.1 版本已发布。
增强功能:
更改:
-
将 NVIDIA 驱动程序升级到版本 470.141.03。
-
将 NVIDIA Fabric Manager 升级到版本 470.141.03。
-
禁用可能对节点性能产生负面影响的 cron 作业任务 man-db 和 mlocate 。
-
将 Intel MPI Library 升级到 2021.6.0.602。
-
将 Python 从 3.7.10 升级到 3.7.13 以应对这种安全风险。
错误修复:
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2022 年 10 月 3 日
|
Amazon ParallelCluster 3.2.0 版本已发布
|
Amazon ParallelCluster 3.2.0 版本已发布。
增强功能:
更改:
-
将 EFA 安装程序升级到版本 1.17.2。
-
EFA 驱动程序:efa-1.16.0-1
-
EFA 配置:efa-config-1.10-1
-
EFA 配置文件:efa-profile-1.5-1
-
Libfabric:libfabric-aws-1.16.0~amzn2.0-1
-
RDMA 内核:rdma-core-41.0-2
-
Open MPI:openmpi40-aws-4.1.4-2
-
将 NICE DCV 升级到版本 2022.0-12760。
-
将 NVIDIA 驱动程序升级到版本 470.129.06。
-
将 NVIDIA Fabric Manager 升级到版本 470.129.06。
-
将根卷和其他卷中的默认 EBS 卷类型从 gp2 更改为 gp3。
-
对 FSx 于 Lustre 文件系统的更改由以下人员创建: Amazon ParallelCluster
-
将默认部署类型更改为 Scratch_2 。
-
将 Lustre 服务器版本更改为 2.12 。
-
传递现有的 PlacementGroup/true 时,不需要将PlacementGroup /En able d 设置为Id 。
-
当 PlacementGroup /Enabled 显式设置为 false 时,不允许设置 PlacementGroup /Id 。
-
为 Amazon ParallelCluster创建的所有资源添加标签 parallelcluster:cluster-name 。
-
添加lambda:ListTags 和lambda:UntagResource ,由 Amazon ParallelCluster API 堆栈ParallelClusterUserRole 用于集群更新。
-
启用配置参数HeadNode /Imds /Secured 后,仅限根用户和集群管理员用户 IPv6 访问权限。IMDS
-
对于自定义 AMI,请使用 AMI 根卷大小,而不是 ParallelCluster默认的 35 GiB。可以在集群配置文件中更改该值。
-
当配置参数 Scheduling /SlurmQueues /ComputeResources /SpotPrice 低于所需的最低竞价型请求履行价格时,自动禁用计算实例集。
-
在更新期间添加或删除某个部分时,在更改集中显示 requested_value 和 current_value 值。
-
禁用深度学习中提供的aws-ubuntu-eni-helper 服务 AMIs,以避免在配置具有多个网卡的实例configure_nw_interface.sh 时发生冲突。
-
删除了对 Python 3.6 的支持。
-
在配置具有多个网卡的实例时,将所有网络接口的 MTU 设置为 9001。
-
配置计算节点 FQDN 时,删除结尾圆点。
-
在 POWERING_DOWN 中管理静态节点。
-
不替换 POWER_DOWN 中的动态节点,因为作业可能仍在运行。
-
只有在更新了集群配置中的 Scheduling 参数时,才会在集群更新时重启 clustermgtd 和 slurmctld 进程守护程序。
-
更新 slurmctld 和 slurmd systemd 服务文件。
-
启用配置参数HeadNode /Imds /Secured 后,仅允许根用户和集群管理员用户 IPv6 访问 IMDS。
-
设置 Slurm 配置 AuthInfo=cred_expire=70 以缩短在节点不可用时重新排队的作业在重启之前必须等待的时间。
-
升级第三方说明书依赖项:
-
apt-7.4.2(从 apt-7.4.0)
-
line-4.5.2(从 line-4.0.1)
-
openssh-2.10.3(从 openssh-2.9.1)
-
pyenv-3.5.1(从 pyenv-3.4.2)
-
selinux-6.0.4(从 selinux-3.1.1)
-
yum-7.4.0(从 yum-6.1.1)
-
yum-epel-4.5.0(从 yum-epel-4.1.2)
错误修复:
-
修复构建自定义 AMI 时跳过 Amazon ParallelCluster 验证和测试步骤的默认行为。
-
修复了 computemgtd 中的文件句柄泄漏问题。
-
修复了偶尔导致已启动的实例因响应中尚不可用而立即终止的 EC2 DescribeInstances 争用条件。
-
对于使用 Arm 处理器的实例类型,修复了对 DisableSimultaneousMultithreading 参数的支持。
-
修复从先前版本升级时的 Amazon ParallelCluster API 堆栈更新失败。在 EcrImageDeletionLambdaRole 中添加了用于 ListImagePipelineImages 操作的资源模式。
-
修复 Amazon ParallelCluster API 在创建 for Lustre 文件系统时添加了从 Amazon S3 导入或导出所需的权限缺失的问题。 FSx
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2022 年 7 月 27 日
|
Amazon ParallelCluster 今年迄今为止仅限文档的更新
|
Amazon ParallelCluster 仅限文档的更新。
新章节:
章节更新:
|
2022 年 7 月 6 日
|
Amazon ParallelCluster 3.1.4 版本已发布
|
Amazon ParallelCluster 3.1.4 版本已发布。
增强功能:
更改:
错误修复:
-
修复了使用带 --filters 选项的 export-cluster-logs 命令时导出集群日志的功能。
-
修复 B Amazon atch Docker 入口点以使用/home 共享目录来协调 Multi-node-Parallel作业执行。
-
将 Slurm 不健康的静态节点设置为关闭时重置节点地址,以避免将容量不足的静态节点视为引导失败节点。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2022 年 5 月 16 日
|
Amazon ParallelCluster 3.1.3 版本已发布
|
Amazon ParallelCluster 3.1.3 版本已发布。
增强功能:
-
当切换到其他用户以及在以其他用户身份执行命令时,例如在 SSH 登录期间,将会执行 SSH 密钥创建并创建主目录。
-
在配置参数 DirectoryService/DomainName 中增加了对 FQDN 和 LDAP 可分辨名称的支持。新验证器现在会检查这两种语法。
-
头节点上部署的新 update_directory_service_password.sh 脚本支持手动更新 SSSD 配置中的 Active Directory 密码。密码由 S Amazon ecrets Manager 从集群配置中检索。
-
增加了对在没有默认 VPC 的环境中部署 API 基础架构的支持。
更改:
错误修复:
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub
|
2022 年 4 月 20 日
|
Amazon ParallelCluster 3.1.2 版本已发布
|
Amazon ParallelCluster 3.1.2 版本已发布。
更改:
错误修复:
有关更改的详细信息,请参阅上的 aws-parallel cluster 软件包的CHANGELOG 文件。 GitHub
|
2022 年 3 月 2 日
|
Amazon ParallelCluster 3.1.1 版本已发布
|
Amazon ParallelCluster 3.1.1 版本已发布。
-
通过与通过 Amazon Directory Service 管理的 Active Directory (AD) 域集成,增加对多用户群集环境的支持。
-
在集群配置文件中添加UseEc对 2Hostnames 的支持。设置为 true 时,请使用亚马逊的 EC2 默认主机名(例如 ip-1-2-3-4)作为计算节点。
-
增加了对在没有互联网访问权限的子网中创建集群的支持。
-
添加了对每个队列包含多种计算实例类型的支持。
-
在使用 NVIDIA 卡的 ARM 实例上添加了对使用 Slurm 进行 GPU 调度的支持。
-
在 Amazon ParallelCluster CLI 中添加 cluster-name (-n )、region (-r )、image-id (-i ) 和cluster-configuration /image-configuration (-c ) 的缩写标志。
-
添加对 Lustre AutoImportPolicy参数NEW_CHANGED_DELETED 选项 FSx 的支持。
-
为计算节点使用的 EC2LaunchTemplates 资源添加parallelcluster:compute-resource-name 标签。
-
改进了在集群中创建的安全组,在为某些头节点和/或队列指定 SecurityGroups 参数的情况下,允许来自自定义安全组的入站连接。
-
为 ARM 安装 NVIDIA 驱动程序和 CUDA 库。
更改:
-
将 Slurm 升级到版本 21.08.5 (从 20.11.8 )。
-
将 Slurm 插件升级到版本 21.08 (从 20.11 )。
-
将 NICE DCV 升级到版本 2021.3-11591 (从 2021.1-10851 )。
-
将 NVIDIA 驱动程序升级到版本 470.103.01 (从 470.57.02 )。
-
将 NVIDIA Fabric Manager 升级到版本 470.103.01 (从 470.57.02 )。
-
将 CUDA 升级到版本 11.4.4 (从 11.4.0 )。
-
Intel MPI 更新至 2021 年版更新 4(从 2019 年版更新 8 进行更新)。有关更多信息,请参阅 Intel® MPI Library 2021 更新 4。
-
升级 PMIx 到版本3.2.3 (从3.1.5 )。
-
删除了将失败的计算节点转储到 /home/logs/compute 。计算节点日志文件在 Amazon EC2 控制台日志 CloudWatch 和控制台日志中均可用。
-
启用潜在抑制 SlurmQueues 和 ComputeResources 长度验证器。
-
在 Amazon Linux 2 上禁用实例启动时的程序包更新。
-
在构建 Amazon ParallelCluster
自定义图像时禁用 Amazon EC2 ImageBuilder 增强版图像元数据。
-
将cloud-init 数据源明确设置为。 EC2这可节省 Ubuntu 和 CentOS 平台的启动时间。
-
在计算实例集启动模板名称中使用计算资源名称而不是实例类型。
-
将 stderr 和 stdout 重定向到 CLI 日志文件,以防止 pcluster CLI 输出中出现不需要的文本。
-
将配置/安装食谱移动到从主程序调用的单独说明书中。现有的入口点保持不变,并且向后兼容。
-
在 AMI 构建期间下载 Intel HPC 平台的依赖项,以避免在集群创建期间联系互联网。
-
配置 Slurm 节点时不从计算资源名称中删除 - 。
-
未安装 NVIDIA 驱动程序时,请勿 GPUs 在 Slurm 中进行配置。
-
修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。
-
修复了未指定前缀时的集群日志导出问题,以前导出为 None 前缀。
-
修复了集群更新失败时不执行回滚的问题。
-
修复了 BatchUserRole 中的 ecs:ListContainerInstances 权限。
-
修复了 HeadNode 的 RootVolume 架构,如果指定了不支持的 KmsKeyId ,则会引发错误。
-
修复 Amazon FSx 缺少要在 CloudWatch 控制面板中显示的指标。
-
修复了 EfaSecurityGroupValidator 。以前,在提供自定义安全组并启用 EFA 的情况下,它可能会产生假失败。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件aws-parallelcluster-cookbook包。aws-parallelcluster-node GitHub
|
2022 年 2 月 10 日
|
Amazon ParallelCluster 3.0.3 版本已发布
|
Amazon ParallelCluster 3.0.3 版本已发布。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbook GitHub
|
2022 年 1 月 17 日
|
Amazon ParallelCluster 3.0.2 版本已发布
|
Amazon ParallelCluster 3.0.2 版本已发布。
将弹性结构适配器安装程序升级到 1.14.1
-
EFA 配置:efa-config-1.9-1 (从 efa-config-1.9 )
-
EFA 配置文件:efa-profile-1.5-1 (从 efa-profile-1.5 )
-
EFA 内核模块:efa-1.14.2 (从 efa-1.13.0 )
-
RDMA 内核:rdma-core-37.0 (从 rdma-core-35 )
-
libfabric:libfabric-1.13.2 (从 libfabric-1.13.0 )
-
Open MPI:openmpi40-aws-4.1.1-2 (无变化)
GPUDirect 如果实例类型支持 RDMA,则始终处于启用状态。GdrSupport配置选项无效。
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
2021 年 11 月 5 日
|
Amazon ParallelCluster 3.0.1 版本已发布
|
Amazon ParallelCluster 3.0.1 版本已发布。
集群配置迁移工具
可以停止头节点
从~/.aws/config 文件中读取的默认 Amazon 区域
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
2021 年 10 月 27 日
|
Amazon ParallelCluster 3.0.0 版本已发布
|
Amazon ParallelCluster 3.0.0 版本已发布。
支持通过 Amazon API Gateway 进行集群管理
改进了自定义 AMI 的创建
有关更改的详细信息,请参阅 aws-parallelcluster CHANGELOG 的文件和上的软件包。aws-parallelcluster-cookbookaws-parallelcluster-node GitHub
|
2021 年 9 月 10 日
|