开始使用 GPU 加速实例
第五代 GPU 加速实例类型(如以下列表所示的类型)为深度学习和高性能计算(HPC)应用程序提供了最高性能的功能。选择实例类型链接以了解有关其功能的更多信息。
有关加速实例类型的实例类型规范的完整列表,请参阅 Amazon EC2 实例类型参考中的加速计算。
软件配置
开始使用第五代 GPU 加速实例类型的最简单方法是从预先配置了所有必需软件的 Amazon 深度学习 AMI 启动实例。有关与 GPU 加速实例类型配合使用的最新 Amazon Deep Learning AMIs,请参阅 Amazon 深度学习基础 GPU AMI(Ubuntu 20.04)
如果需要构建自定义 AMI 来启动托管深度学习或 HPC 应用程序的实例,则建议在基础映像上安装以下最低软件版本:
软件 | 实例类型 | 最低版本 |
---|---|---|
NVIDIA 驱动程序 | P5 | 530 |
P5e | 550 | |
CUDA | P5、P5e | 12.1 |
NVIDIA GDRCopy | P5、P5e | 2.3 |
EFA 安装程序 | P5、P5e | 1.24.1 |
NCCL | P5、P5e | 2.18.3 |
aws-ofi-nccl 插件 | P5、P5e | 1.7.2-aws |
还会建议您将实例配置为不使用深层 C 状态。有关更多信息,请参阅《Amazon Linux 2 User Guide》中的 High performance and low latency by limiting deeper C-states。最新的 Amazon 深度学习基础 GPU AMI 已预先配置为不使用深层 C 状态。
有关网络和 Elastic Fabric Adapter(EFA)配置,请参阅 使用多网卡最大化 Amazon EC2 实例上的网络带宽。
Ubuntu 20.04 的具体建议
以下针对 Ubuntu 20.04 的建议有助于防止在启动时出现不可预测的接口命名:
-
使用以下命令确保正在运行
systemd 245.4-4ubuntu3.19
或稍后运行:$
systemd --version -
确保已配置 GRUB:
-
在文本编辑器中打开
/etc/default/grub
配置文件。 -
编辑要包括
GRUB_CMDLINE_LINUX_DEFAULT
的net.naming-scheme=v247
条目。 -
通过运行
sudo update-grub
重启实例。
-