开始使用 GPU 加速实例 - Amazon Elastic Compute Cloud
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

开始使用 GPU 加速实例

最新一代 GPU 加速实例类型(如以下列表所示的类型)为深度学习和高性能计算 (HPC) 应用程序提供了最高性能的功能。选择实例类型链接以了解有关其功能的更多信息。

有关加速实例类型的实例类型规范的完整列表,请参阅 Amazon EC2 实例类型参考中的加速计算

软件配置

开始使用最新一代 GPU 加速实例类型的最简单方法是从预先配置了所有必需软件的 Amazon 深度学习 AMI 启动实例。有关与 GPU 加速实例类型配合使用的最新 Amazon Deep Learning AMIs,请参阅《Amazon Deep Learning AMIs 开发人员指南》中的 P6 Supported DLAMI

如果需要构建自定义 AMI 来启动托管深度学习或 HPC 应用程序的实例,则建议在基础映像上安装以下最低软件版本。

实例类型 NVIDIA 驱动程序 CUDA NVIDIA GDRCopy EFA 安装程序 NCCL EFA K8s*
P5 530 12.1 2.3 1.24.1 2.18.3 0.4.4
P5e 550 12.1 2.3 1.24.1 2.18.3 0.5.5
P5en 550 12.1 2.3 1.24.1 2.18.3 0.5.6
P6-B200 570 12.8 2.5 1.4.1 2.26.2-1 0.5.10

* EFA K8s 列包含 aws-efa-k8s-device-plugin 的最低推荐版本。

注意

如果您使用 EFA 安装程序 1.4.1 版本,则 aws-ofi-nccl plugin 会附带它。对于早期版本的 EFA 安装程序,请使用 aws-ofi-nccl plugin 版本 1.7.2-aws 或更高版本。

还会建议您将实例配置为不使用深层 C 状态。有关更多信息,请参阅《Amazon Linux 2 User Guide》中的 High performance and low latency by limiting deeper C-states。最新的 Amazon 深度学习基础 GPU AMI 已预先配置为不使用深层 C 状态。

有关网络和 Elastic Fabric Adapter(EFA)配置,请参阅 使用多网卡最大化 Amazon EC2 实例上的网络带宽