开始使用 P5 实例 - Amazon Elastic Compute Cloud
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

开始使用 P5 实例

P5 实例提供 8 个 NVIDIA H100 GPU,配备 640 GB 高带宽 GPU 内存。此外,配备了第三代 AMD EPYC 处理器、2TB 系统内存、30TB 本地 NVMe 实例存储、3200Gbps 聚合网络带宽和 GPUDirect RDMA 支持。P5 实例还支持 Amazon EC2 UltraCluster 技术,该技术通过 EFA 降低了延迟并提升了网络性能。

下表提供了 p5.48xlarge 规格摘要。

vCPU 系统内存 GPU GPU 内存 网络带宽 GPUDirect RDMA GPU 对等 实例存储
192 2 TiB 8 NVIDIA H100 GPU 640GB HBM3 3200Gbps(使用 EFAv2) 支持 900GB/s NVSwitch 8 x 3,800GB NVMe SSD 卷
软件配置

开始使用 P5 实例最简单方法是使用已预先配置所有必需软件的 Amazon Deep Learning AMI 启动实例。有关与 P5 实例配合使用的最新 Amazon Deep Learning AMI,请参阅 Amazon 深度学习基础 GPU AMI(Ubuntu 20.04)

如果您需要构建用于 P5 实例的自定义 AMI,则建议安装以下最低软件版本:

  • NVIDIA 驱动程序 535.54.03 或更高版本

  • CUDA 12.1 或更高版本

  • Nvidia GDRCopy 2.3 或更高版本

  • EFA 安装程序 1.24.1 或更高版本

  • NCCL 2.18.3 或更高版本

  • aws-ofi-nccl 插件 1.7.2-aws 或更高版本

还会建议您将实例配置为不使用深层 C 状态。有关更多信息,请参阅《Amazon Linux 2 User Guide》中的 High performance and low latency by limiting deeper C-states。最新的 Amazon 深度学习基础 GPU AMI 已预先配置为不使用深层 C 状态。

Ubuntu 20.04 的具体建议

以下针对 Ubuntu 20.04 的建议有助于防止在启动时出现不可预测的接口命名:

  • 使用以下命令确保正在运行 systemd 245.4-4ubuntu3.19 或稍后运行:

    systemd --version
  • 确保已配置 GRUB:

    • 在文本编辑器中打开 /etc/default/grub 配置文件。

    • 编辑要包括 GRUB_CMDLINE_LINUX_DEFAULTnet.naming-scheme=v247 条目。

    • 通过运行 sudo update-grub 重启实例。

联网和 EFA 配置

P5 实例通过使用多个 EFA 接口提供 3200Gbps 的网络带宽。P5 实例支持 32 个网卡。建议您为每个网卡定义单个 EFA 网络接口。要在启动时配置这些接口,建议进行以下设置:

  • 对于网络接口 0,指定设备索引 0

  • 对于网络接口 1 至 31,指定设备索引 1