开始使用 GPU 加速实例 - Amazon Elastic Compute Cloud
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

开始使用 GPU 加速实例

第五代 GPU 加速实例类型(如以下列表所示的类型)为深度学习和高性能计算(HPC)应用程序提供了最高性能的功能。选择实例类型链接以了解有关其功能的更多信息。

有关加速实例类型的实例类型规范的完整列表,请参阅 Amazon EC2 实例类型参考中的加速计算

软件配置

开始使用第五代 GPU 加速实例类型的最简单方法是从预先配置了所有必需软件的 Amazon 深度学习 AMI 启动实例。有关与 GPU 加速实例类型配合使用的最新 Amazon Deep Learning AMIs,请参阅 Amazon 深度学习基础 GPU AMI(Ubuntu 20.04)

如果需要构建自定义 AMI 来启动托管深度学习或 HPC 应用程序的实例,则建议在基础映像上安装以下最低软件版本:

软件 实例类型 最低版本
NVIDIA 驱动程序 P5 530
P5e 550
CUDA P5、P5e 12.1
NVIDIA GDRCopy P5、P5e 2.3
EFA 安装程序 P5、P5e 1.24.1
NCCL P5、P5e 2.18.3
aws-ofi-nccl 插件 P5、P5e 1.7.2-aws

还会建议您将实例配置为不使用深层 C 状态。有关更多信息,请参阅《Amazon Linux 2 User Guide》中的 High performance and low latency by limiting deeper C-states。最新的 Amazon 深度学习基础 GPU AMI 已预先配置为不使用深层 C 状态。

有关网络和 Elastic Fabric Adapter(EFA)配置,请参阅 使用多网卡最大化 Amazon EC2 实例上的网络带宽

Ubuntu 20.04 的具体建议

以下针对 Ubuntu 20.04 的建议有助于防止在启动时出现不可预测的接口命名:

  • 使用以下命令确保正在运行 systemd 245.4-4ubuntu3.19 或稍后运行:

    $ systemd --version
  • 确保已配置 GRUB:

    • 在文本编辑器中打开 /etc/default/grub 配置文件。

    • 编辑要包括 GRUB_CMDLINE_LINUX_DEFAULTnet.naming-scheme=v247 条目。

    • 通过运行 sudo update-grub 重启实例。