Elastic Fabric Adapter - Amazon ParallelCluster
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Elastic Fabric Adapter

Elastic Fabric Adapter (EFA) 是一种网络设备,具有操作系统旁路功能,可与同一子网上的其他实例进行低延迟的网络通信。EFA 通过使用 Libfabric 进行公开,并且可以由使用消息传递接口 (MPI) 的应用程序使用。

要将 EFA 与 Amazon ParallelCluster 和一起使用 Slurm 调度器,将 SlurmQueues//ComputeResourcesEfa/设置为Enabledtrue

要查看支持 EFA 的亚马逊 EC2 实例列表,请参阅亚马逊 Linux 实例 EC2 用户指南中的支持的实例类型

我们建议您在置放群组中运行启用 EFA 的实例。这样,这些实例便可启动到单个可用区的低延迟组中。有关如何使用 Amazon ParallelCluster配置置放群组的更多信息,请参阅 SlurmQueues/Networking/PlacementGroup

有关更多信息,请参阅 Amazon EC2 用户指南中的弹性结构适配器以及使用弹性结构适配器扩展 HPC 工作负载和 Amazon ParallelClusterAmazon开源博客

注意

不支持在不同的可用区之间使用 Elastic Fabric Adapter (EFA)。有关更多信息,请参阅日程安排/SlurmQueues/联网/SubnetIds

注意

默认情况下,Ubuntu 发行版启用 ptrace (过程跟踪)保护。ptrace 保护已禁用,这样 Libfabric 才能正常运行。有关更多信息,请参阅《亚马逊 EC2 用户指南》中的禁用 ptrace 保护