安装 NVIDIA 公共驱动程序
如果使用包含 NVIDIA 驱动程序的 AMI中所述的 Amazon Web Services Marketplace AMI 不适合您的使用案例,则可以安装公共驱动程序和自带许可。安装选项包含以下内容:
-
选项 2:使用 CUDA 工具包安装(建议用于 Linux 发行版)
P6-B200 实例类型注意事项
P6-B200 平台的独特之处在于它将 Mellanox ConnectX 7 网络接口卡 (NIC) 作为 PCIe 设备公开给实例。这些 CX7 NIC 不充当典型的网络接口,而是充当 NVSwitch 网桥,提供控制路径来初始化和配置 NVFabric(即 GPU 互连的 NVLink 拓扑)。
要完全初始化系统,NVIDIA Fabric Manager 必须配置 NVFabric 并建立 NVSwitch 拓扑。这使得 InfiniBand 内核模块能够与 CX7 设备通信。
NVIDIA Fabric Manager 包含在 CUDA 工具包中。对于此实例类型,我们建议使用 选项 2:使用 CUDA 工具包安装。
选项 1:仅安装驱动程序
要安装特定驱动程序,登录您的实例并从 http://www.nvidia.com/Download/Find.aspx
然后,按照《NVIDIA 驱动程序安装指南
注意
P6-B200 实例类型需要安装和配置与 NVIDIA CUDA Toolkit 捆绑在一起的附加包。有关更多信息,请参阅 选项 2:使用 CUDA 工具包安装 中有关 Linux 发行版的说明。
| 实例 | 产品类型 | 产品系列 | 产品 | 最低驱动程序版本 |
|---|---|---|---|---|
| G3 | Tesla | M-Class | M60 | -- |
| G4dn | Tesla | T 系列 | T4 | -- |
| G5 | Tesla | A 系列 | A10 | 470.00 或更高版本 |
| G5g1 | Tesla | T 系列 | NVIDIA T4G | 470.82.01 或更高版本 |
| G6 | Tesla | L 系列 | L4 | 525.0 或更高版本 |
| G6e | Tesla | L 系列 | L40S | 535.0 或更高版本 |
| Gr6 | Tesla | L 系列 | L4 | 525.0 或更高版本 |
| P2 | Tesla | E 系列 | K80 | -- |
| P3 | Tesla | V 系列 | V100 | -- |
| P4d | Tesla | A 系列 | A100 | -- |
| P4de | Tesla | A 系列 | A100 | -- |
| P5 | Tesla | H 系列 | H100 | 530 或更高版本 |
| P5e | Tesla | H 系列 | H200 | 550 或更高版本 |
| P5en | Tesla | H 系列 | H200 | 550 或更高版本 |
| P6-B2002 | Tesla | HGX 系列 | B200 | 570 或更高版本 |
| P6e-GB200 | Tesla | HGX 系列 | B200 | 570 或更高版本 |
1 G5g 实例的操作系统是 Linux aarch64。
2 对于 P6-B200 实例类型,配置 NVIDIA Fabric Manager 有额外的安装要求。
选项 2:使用 CUDA 工具包安装
安装说明因操作系统而稍有不同。要使用 NVIDIA CUDA 工具包在您的实例上安装公共驱动程序,请按照有关您的实例操作系统的说明进行操作。对于此处未显示的实例操作系统,请按照 NVIDIA 开发者网站上有关您的操作系统和实例类型架构的说明进行操作。有关更多信息,请参阅 CUDA 工具包下载
有关实例类型架构或其他规范,请参阅 Amazon EC2 实例类型参考中的加速计算规范。
本节介绍在 Amazon Linux 2023 实例上安装的 NVIDIA CUDA 工具包。本节中的命令示例基于 x86_64 架构。
有关 arm64-sbsa 命令,请参阅 CUDA 工具包下载
先决条件
在安装工具包和驱动程序之前,请运行以下命令,以确保安装了正确版本的内核标头和开发包。
[ec2-user ~]$sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
下载工具包和驱动程序
选择要用于您的实例的安装类型,然后按照相关步骤进行操作。
本地安装和网络安装的其余步骤相同。
-
完成 CUDA 工具包安装
[ec2-user ~]$sudo dnf clean all[ec2-user ~]$sudo dnf install cuda-toolkit -y -
安装驱动程序的开放内核模块变体
[ec2-user ~]$sudo dnf module install nvidia-driver:open-dkms -y -
安装 GPUDirect Storage 和 Fabric 管理器
[ec2-user ~]$sudo dnf install nvidia-gds -y[ec2-user ~]$sudo dnf install nvidia-fabric-manager -y -
启用 Fabric 管理器和驱动程序持久性
[ec2-user ~]$sudo systemctl enable nvidia-fabricmanager[ec2-user ~]$sudo systemctl enable nvidia-persistenced -
P6-B200 实例类型的其他配置:
P6-B200 实例类型需要安装和配置与 NVIDIA CUDA Toolkit 捆绑在一起的附加包。
-
安装 NVIDIA Link Subnet Manager 和
ibstat。[ec2-user ~]$sudo dnf install nvlink5 -
启用启动时自动加载 Infiniband 模块。
[ec2-user ~]$echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
-
-
重启实例
[ec2-user ~]$sudo reboot
本节介绍在 Ubuntu 24.04 实例上安装的 NVIDIA CUDA 工具包。本节中的命令示例基于 x86_64 架构。
有关 arm64-sbsa 命令,请参阅 CUDA 工具包下载
先决条件
在安装工具包和驱动程序之前,请运行以下命令,以确保安装了正确版本的内核标头和开发包。
$apt install linux-headers-$(uname -r)
下载工具包和驱动程序
选择要用于您的实例的安装类型,然后按照相关步骤进行操作。
本地安装和网络安装的其余步骤相同。
-
完成 CUDA 工具包安装
$sudo apt update$sudo apt install cuda-toolkit -y -
安装驱动程序的开放内核模块变体
$sudo apt install nvidia-open -y -
安装 GPUDirect Storage 和 Fabric 管理器
$sudo apt install nvidia-gds -y$sudo apt install nvidia-fabricmanager -y -
启用 Fabric 管理器和驱动程序持久性
$sudo systemctl enable nvidia-fabricmanager$sudo systemctl enable nvidia-persistenced -
P6-B200 实例类型的其他配置:
P6-B200 实例类型需要安装和配置与 NVIDIA CUDA Toolkit 捆绑在一起的附加包。
-
安装最新的 Infiniband 特定设备驱动程序 (
mlx5_ib) 和诊断实用程序。$sudo apt install linux-modules-extra-$(uname -r) -y$sudo apt install infiniband-diags -y -
安装 NVIDIA Link Subnet Manager。
$sudo apt install nvlsm -y
-
-
重启实例
sudo reboot -
更新您的路径并添加以下环境变量。
$export PATH=${PATH}:/usr/local/cuda-13.0/bin$export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64
要在 Windows 上安装 NVIDIA 驱动程序,请执行以下步骤:
-
打开在其中下载驱动程序的文件夹,然后启动安装文件。按照说明安装驱动程序并根据需要重启实例。
-
使用设备管理器禁用标有警告图标的名为 Microsoft Basic Display Adapter 的显示适配器。安装这些 Windows 功能:Media Foundation 和 Quality Windows Audio Video Experience。
重要
切勿禁用名为 Microsoft Remote Display Adapter 的显示适配器。如果禁用 Microsoft Remote Display Adapter,连接可能会中断,并且可能无法在实例重启后成功连接到实例。
-
检查设备管理器以验证 GPU 正常工作。
-
为实现 GPU 的最佳性能,请完成优化 Amazon EC2 实例上的 GPU 设置中的优化步骤。