共享存储 - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

共享存储

Amazon ParallelCluster 支持使用 Amazon EBS适用于 ONTAP 的 FSx适用于 OpenZFS 的 FSx 共享存储卷、Amazon EFS适用于 Lustre 的 FSx 共享存储文件系统或文件缓存。我们建议您遵循 Amazon Well-Architected Framework 可靠性支柱指南,备份您的卷和文件系统。

选择符合 HPC 应用程序 I/O 要求的存储系统。您可以根据具体用例优化每个文件系统。有关更多信息,请参阅存储选项概述

Amazon EBS 卷附加到头节点,并通过 NFS 与计算节点共享。此选项可能具有成本效益,但随着存储需求的扩展,性能将取决于头节点资源。随着添加到集群中的计算节点越来越多以及吞吐量需求的增加,这可能会成为瓶颈。

Amazon EFS 文件系统会随着存储需求的变化而扩展。您可以为各种用例配置这些文件系统。可以使用 Amazon EFS 文件系统在集群上运行并行化且对延迟敏感的应用程序。

适用于 Lustre 的 FSx 文件系统能以高达每秒数百 GB 的吞吐量、数百万次的 IOPS 和低于一毫秒的延迟处理大规模数据集。可以将适用于 Lustre 的 FSx 文件系统用于要求苛刻的高性能计算环境。

SharedStorage 部分中,您可以定义外部存储或 Amazon ParallelCluster 托管存储:

  • 外部存储是指您管理的现有卷或文件系统。Amazon ParallelCluster 不会创建或删除此存储。

  • 托管存储是指 Amazon ParallelCluster 创建并可以删除的卷或文件系统。

外部存储

您可以将 Amazon ParallelCluster 配置为在创建或更新集群时将外部存储附加到集群。同样,您可以将其配置为在删除或更新集群时将外部存储与集群分离。您的数据将被保留,您可以在集群生命周期之外将其用于长期永久性共享存储。

注意

3.8 Amazon ParallelCluster 之前的版本不允许在上安装外部管理的文件系统。/home从 3.8 版开始,Amazon ParallelCluster允许您/home用作外部托管文件系统的挂载点。/home通过将下方的MountDir参数指定/home为值,可以将外部托管的文件系统挂载到中。SharedStorage 部分

Amazon 文件缓存不适合用作系统/home目录,因此目前不支持挂载/home

在配置选项SharedStorage 部分下指定/home目录时,将覆盖SharedStorageType配置选项,这意味着SharedStorage 部分将改用下面的设置。

将外部文件系统挂载到/home目录时,会将头节点的/home内容Amazon ParallelCluster复制到外部文件系统,而不会覆盖外部存储器上的现有文件。这包括为默认用户传输集群的 SSH 密钥(如果外部文件系统中没有该密钥)。有关更多信息,请参阅Amazon ParallelCluster 共享存储注意事项

Amazon ParallelCluster 托管存储

默认情况下,Amazon ParallelCluster 托管存储依赖于配置中的集群生命周期。默认情况下,SharedStorage DeletionPolicy 配置参数设置为 Delete

默认情况下,如果满足以下条件之一,则会删除 Amazon ParallelCluster 托管文件系统或卷及其数据。

  • 您删除集群。

  • 您更改托管共享存储配置 Name

  • 您从配置中删除托管共享存储。

DeletionPolicy 设置为 Retain 可保留您的托管共享文件系统或卷及数据。我们建议您定期备份数据,以避免数据丢失。您可以使用 Amazon Backup 集中管理所有存储选项的备份。

您可以使用配置设置删除生命周期依赖关系。有关更多信息,请参阅将 Amazon ParallelCluster 托管存储转换为外部存储

有关共享存储配额的信息,请参阅共享存储的配额

有关共享存储和切换到新 Amazon ParallelCluster 版本的更多信息,请参阅最佳实践:将集群迁移至新的 Amazon ParallelCluster 次要版本或修补版本

您可以将 Amazon ParallelCluster 配置为在创建或更新集群时将外部存储附加到集群。同样,您可以将其配置为在删除或更新集群时将外部存储与集群分离。您的数据将被保留,您可以将其用于依赖于集群生命周期的长期永久性共享存储解决方案。

默认情况下,托管存储依赖于集群的生命周期。您可以使用将 Amazon ParallelCluster 托管存储转换为外部存储中所述的配置设置删除这种依赖关系。

通过特定的设置,您可以针对自己的用例优化支持的每种存储解决方案。

有关共享存储配额,请参阅共享存储的配额

有关共享存储和切换到新 Amazon ParallelCluster 版本的更多信息,请参阅最佳实践:将集群迁移至新的 Amazon ParallelCluster 次要版本或修补版本