

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# NVIDIA 驱动程序
<a name="nvidia-drivers"></a>

 亚马逊 Linux 2023 通过专用存储库提供 NVIDIA GPU 驱动程序和 CUDA 工具包。该存储库由 [Amazon Linux 安全中心 (ALAS) 维护 Amazon 并通过该中心提供安全](https://alas.aws.amazon.com)建议。

**Topics**
+ [关于 NVIDIA 存储库](#nvidia-drivers-about)
+ [启用 NVIDIA 存储库](#nvidia-drivers-install-repo)
+ [安装 NVIDIA 驱动程序](#nvidia-drivers-install-driver)
+ [安装 CUDA 工具包](#nvidia-drivers-install-cuda)
+ [移除 NVIDIA 存储库](#nvidia-drivers-uninstall)

## 关于 NVIDIA 存储库
<a name="nvidia-drivers-about"></a>

 AL2023 NVIDIA 存储库镜像来自[官方 NVIDIA CUDA 存储库的 AL2023](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/#amazon-installation)软件包。 Amazon 在重新分发之前，将 NVIDIA 软件与候选 AL2023 版本相匹配，并为此存储库中的软件包提供安全建议。

 该存储库可在所有 Amazon 商业区域使用，包括 Amazon GovCloud （美国）地区和 Amazon 中国区域。

 该存储库提供适用于 x86\_64 架构的 NVIDIA Tesla（数据中心计算）和显卡驱动程序。不包括用于虚拟显示和远程工作站功能的 GRID 驱动程序。要安装 GRID 驱动程序，请参阅《*EC2 用户指南》*中的 “[安装 NVIDIA 驱动程序](https://docs.amazonaws.cn/AWSEC2/latest/UserGuide/install-nvidia-driver.html)”。

## 启用 NVIDIA 存储库
<a name="nvidia-drivers-install-repo"></a>

 要在您的 AL2023 实例上启用 NVIDIA 存储库，请安装`nvidia-release`软件包。这会将存储库配置和 GPG 密钥添加到您的系统中。

```
[ec2-user ~]$ sudo dnf install nvidia-release -y
```

验证存储库是否已添加：

```
[ec2-user ~]$ dnf repolist
```

您应该会在列表中看到`amazonlinux-nvidia`存储库。

```
repo id                    repo name                                                status
amazonlinux                Amazon Linux 2023 repository                             enabled
amazonlinux-nvidia         Amazon Linux 2023 NVIDIA repository                      enabled
```

## 安装 NVIDIA 驱动程序
<a name="nvidia-drivers-install-driver"></a>

 启用存储库后，您可以使用安装 NVIDIA 驱动程序包`dnf`。

1. 为正在运行的内核安装内核头文件和开发包：

   ```
   [ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
   ```

1. 安装 NVIDIA 驱动程序：

   ```
   [ec2-user ~]$ sudo dnf install nvidia-driver-cuda -y
   ```

1. 重启实例：

   ```
   [ec2-user ~]$ sudo reboot
   ```

1. 重新启动后，验证驱动程序是否已加载：

   ```
   [ec2-user ~]$ nvidia-smi
   ```

## 安装 CUDA 工具包
<a name="nvidia-drivers-install-cuda"></a>

 安装 NVIDIA 驱动程序后，您可以安装 CUDA 工具包：

```
[ec2-user ~]$ sudo dnf install cuda-toolkit -y
```

**注意**  
 对于需要 NVIDIA Fabric Manager 的 GPU 实例（例如 p4d、P5 和 P6 实例类型），请安装并启用其他软件包：  

```
[ec2-user ~]$ DRV_BRANCH="$(modinfo nvidia | grep "^version:" | tr -s ' ' | cut -d ' ' -f 2)"
[ec2-user ~]$ sudo dnf install nvidia-fabricmanager-${DRV_BRANCH} -y
[ec2-user ~]$ sudo systemctl enable --now nvidia-fabricmanager
[ec2-user ~]$ sudo systemctl enable --now nvidia-persistenced
```
验证结构管理器是否正在运行并且已通过 NVSwitch以下方式连接： GPUs   

```
[ec2-user ~]$ sudo systemctl status nvidia-fabricmanager
[ec2-user ~]$ nvidia-smi topo -m
```
在拓扑矩阵中，两者之间的连接 GPUs 应显示`NV`链路，表示 NVSwitch连接处于活动状态。

 有关在 EC2 GPU 实例上安装 NVIDIA 驱动程序的详细说明，包括特定实例类型的要求，请参阅 *EC2 用户*指南中的[安装 NVIDIA 公共驱动程序](https://docs.amazonaws.cn/AWSEC2/latest/UserGuide/public-nvidia-driver.html)。

## 移除 NVIDIA 存储库
<a name="nvidia-drivers-uninstall"></a>

 要从系统中删除 NVIDIA 存储库配置，请执行以下操作：

```
[ec2-user ~]$ sudo dnf remove nvidia-release -y
```

**重要**  
 移除存储库配置并不会删除系统上已安装的任何 NVIDIA 软件包。