开始使用适用于 Linux 的 P5 实例
P5 实例提供 8 个 NVIDIA H100 GPU,配备 640 GB 高带宽 GPU 内存。此外,配备了第三代 AMD EPYC 处理器、2TB 系统内存、30TB 本地 NVMe 实例存储、3200Gbps 聚合网络带宽和 GPUDirect RDMA 支持。P5 实例还支持 Amazon EC2 UltraCluster 技术,该技术通过 EFA 降低了延迟并提升了网络性能。
下表提供了 p5.48xlarge
规格摘要。
vCPU | 系统内存 | GPU | GPU 内存 | 网络带宽 | GPUDirect RDMA | GPU 对等 | 实例存储 |
---|---|---|---|---|---|---|---|
192 | 2 TiB | 8 NVIDIA H100 GPU | 640GB HBM3 | 3200Gbps(使用 EFAv2) | 支持 | 900GB/s NVSwitch | 8 x 3,800GB NVMe SSD 卷 |
软件配置
开始使用 P5 实例最简单方法是使用已预先配置所有必需软件的 Amazon Deep Learning AMI 启动实例。有关与 P5 实例配合使用的最新 Amazon Deep Learning AMI,请参阅 Amazon 深度学习基础 GPU AMI(Ubuntu 20.04)
如果您需要构建用于 P5 实例的自定义 AMI,则建议安装以下最低软件版本:
-
NVIDIA 驱动程序 535.54.03 或更高版本
-
CUDA 12.1 或更高版本
-
Nvidia GDRCopy 2.3 或更高版本
-
EFA 安装程序 1.24.1 或更高版本
-
NCCL 2.18.3 或更高版本
-
aws-ofi-nccl 插件 1.7.2-aws 或更高版本
还会建议您将实例配置为不使用深层 C 状态。有关更多信息,请参阅《Amazon Linux 2 User Guide》中的 High performance and low latency by limiting deeper C-states。最新的 Amazon 深度学习基础 GPU AMI 已预先配置为不使用深层 C 状态。
Ubuntu 20.04 的具体建议
以下针对 Ubuntu 20.04 的建议有助于防止在启动时出现不可预测的接口命名:
-
使用以下命令确保正在运行
systemd 245.4-4ubuntu3.19
或稍后运行:systemd --version
-
确保已配置 GRUB:
-
在文本编辑器中打开
/etc/default/grub
配置文件。 -
编辑要包括
GRUB_CMDLINE_LINUX_DEFAULT
的net.naming-scheme=v247
条目。 -
通过运行
sudo update-grub
重启实例。
-
联网和 EFA 配置
P5 实例通过使用多个 EFA 接口提供 3200Gbps 的网络带宽。P5 实例支持 32 个网卡。建议您为每个网卡定义单个 EFA 网络接口。要在启动时配置这些接口,建议进行以下设置:
-
对于网络接口
0
,指定设备索引0
-
对于网络接口
1
至31
,指定设备索引1