开始使用 GPU 加速实例
最新一代 GPU 加速实例类型(如以下列表所示的类型)为深度学习和高性能计算 (HPC) 应用程序提供了最高性能的功能。选择实例类型链接以了解有关其功能的更多信息。
有关加速实例类型的实例类型规范的完整列表,请参阅 Amazon EC2 实例类型参考中的加速计算。
软件配置
开始使用最新一代 GPU 加速实例类型的最简单方法是从预先配置了所有必需软件的 Amazon 深度学习 AMI 启动实例。有关与 GPU 加速实例类型配合使用的最新 Amazon Deep Learning AMIs,请参阅《Amazon Deep Learning AMIs 开发人员指南》中的 P6 Supported DLAMI。
如果需要构建自定义 AMI 来启动托管深度学习或 HPC 应用程序的实例,则建议在基础映像上安装以下最低软件版本。
实例类型 | NVIDIA 驱动程序 | CUDA | NVIDIA GDRCopy | EFA 安装程序 | NCCL | EFA K8s* |
---|---|---|---|---|---|---|
P5 | 530 | 12.1 | 2.3 | 1.24.1 | 2.18.3 | 0.4.4 |
P5e | 550 | 12.1 | 2.3 | 1.24.1 | 2.18.3 | 0.5.5 |
P5en | 550 | 12.1 | 2.3 | 1.24.1 | 2.18.3 | 0.5.6 |
P6-B200 | 570 | 12.8 | 2.5 | 1.4.1 | 2.26.2-1 | 0.5.10 |
* EFA K8s 列包含 aws-efa-k8s-device-plugin
的最低推荐版本。
注意
如果您使用 EFA 安装程序 1.4.1 版本,则 aws-ofi-nccl plugin
会附带它。对于早期版本的 EFA 安装程序,请使用 aws-ofi-nccl plugin
版本 1.7.2-aws
或更高版本。
还会建议您将实例配置为不使用深层 C 状态。有关更多信息,请参阅《Amazon Linux 2 User Guide》中的 High performance and low latency by limiting deeper C-states。最新的 Amazon 深度学习基础 GPU AMI 已预先配置为不使用深层 C 状态。
有关网络和 Elastic Fabric Adapter(EFA)配置,请参阅 使用多网卡最大化 Amazon EC2 实例上的网络带宽。