Amazon Elastic Compute Cloud
Linux 实例用户指南
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。请点击 Amazon AWS 入门,可查看中国地区的具体差异

在 Linux 实例上安装 NVIDIA 驱动程序

基于 GPU 的加速计算实例必须具有相应的 NVIDIA 驱动程序。必须针对您计划在实例上运行的内核编译您安装的 NVIDIA 驱动程序。

Amazon 在 AWS Marketplace 中针对每次官方内核升级向 AMI 提供 NVIDIA 内核驱动程序的兼容更新版本。如果您决定使用与 Amazon 提供的版本不同的 NVIDIA 驱动程序,或决定使用非 Amazon 官方版本的内核,则须从您的系统中卸载 Amazon 提供的 NVIDIA 软件包,以避免与您将要安装的驱动程序版本相冲突。

使用该命令卸载 Amazon 提供的 NVIDIA 软件包:

sudo yum erase nvidia cuda

Amazon 提供的 CUDA 工具包安装包对 NVIDIA 驱动程序有依赖性。卸载 NVIDIA 软件包也会删除 CUDA 工具包。必须在安装 NVIDIA 驱动程序之后重新安装 CUDA 工具包。

下载 NVIDIA GRID 驱动程序 (G3)

对于 G3 实例,您可以使用 AWS CLI 或 SDK 从 Amazon S3 下载 NVIDIA GRID 驱动程序。要安装 AWS CLI,请参阅 AWS Command Line Interface 用户指南 中的安装 AWS Command Line Interface

重要

此下载仅对 AWS 客户可用。下载即表明您同意仅将下载的软件用于开发在 NVIDIA Tesla M60 硬件上使用的 AMI。安装软件时,您需要遵循 NVIDIA GRID Cloud 最终用户许可协议条款。

使用以下 AWS CLI 命令下载驱动程序:

aws s3 cp --recursive s3://ec2-linux-nvidia-drivers/ .

如果您收到 Unable to locate credentials 错误,请参阅配置 AWS CLI 以将 AWS CLI 配置为使用您的 AWS 凭证。

下载公有 NVIDIA 驱动程序 (P2、P3)

如果是 G3 以外的实例类型,或者您没有在 G3 实例上使用 NVIDIA GRID 功能,您可以下载公有 NVIDIA 驱动程序。

http://www.nvidia.com/Download/Find.aspx 下载适合您的实例类型的 64 位 NVIDIA 驱动程序。

实例 产品类型 产品系列 产品
P2 Tesla E 系列 K-80
P3 Tesla V 系列 V100

有关安装和配置驱动程序的更多信息,请在 NVIDIA 网站上选择驱动程序下载页面上的 ADDITIONAL INFORMATION (附加信息) 选项卡,然后选择“README (自述文件)”链接。

手动安装 NVIDIA 驱动程序

在 Linux 实例上安装驱动程序

  1. 更新软件包缓存并获取实例的必需软件包更新。

    • 对于 Amazon Linux、CentOS 和 Red Hat Enterprise Linux:

      sudo yum update -y
    • 对于 Ubuntu 和 Debian:

      sudo apt-get update -y
  2. (Ubuntu 16.04 和更高版本,带有 linux-aws 软件包) 升级 linux-aws 软件包以接收最新版本。

    sudo apt-get upgrade -y linux-aws
  3. 重启实例以加载最新内核版本。

    sudo reboot
  4. 重启之后重新连接到实例。

  5. 为您当前运行的内核版本安装 gcc 编译器和内核标头软件包。

    • 对于 Amazon Linux、CentOS 和 Red Hat Enterprise Linux:

      sudo yum install -y gcc kernel-devel-$(uname -r)
    • 对于 Ubuntu 和 Debian:

      sudo apt-get install -y gcc make linux-headers-$(uname -r)
  6. (仅图形桌面实例) 禁用 NVIDIA 显卡的 nouveau 开源驱动程序。

    1. nouveau 添加到 /etc/modprobe.d/blacklist.conf 黑名单文件。复制下面的代码块并将其粘贴到终端中。

      cat << EOF | sudo tee --append /etc/modprobe.d/blacklist.conf blacklist vga16fb blacklist nouveau blacklist rivafb blacklist nvidiafb blacklist rivatv EOF
    2. 编辑 /etc/default/grub 文件并将以下文本添加到 GRUB_CMDLINE_LINUX 行:

      GRUB_CMDLINE_LINUX="modprobe.blacklist=nouveau"
    3. 重新生成 Grub 配置。

      • CentOS 和 Red Hat Enterprise Linux:

        sudo grub2-mkconfig -o /boot/grub2/grub.cfg
      • 对于 Ubuntu 和 Debian:

        sudo update-grub
  7. 下载之前确定的驱动程序包。

  8. 运行自安装脚本,安装您在上一个步骤中下载的 NVIDIA 驱动程序。例如:

    sudo /bin/bash ./NVIDIA-Linux-x86_64-367.106.run
  9. 重启实例。

    sudo reboot
  10. 确认驱动程序正常运行。以下命令的响应会列出已安装的 NVIDIA 驱动程序版本和有关 GPU 的详细信息。

    注意

    该命令可能需要几分钟才能运行。

    nvidia-smi -q | head
  11. (仅限 G3 实例) 要在 G3 实例上启用 NVIDIA GRID 虚拟工作站或 NVIDIA GRID 虚拟应用程序,请完成激活 NVIDIA GRID 功能 (仅限 G3 实例)中的 GRID 激活步骤。

  12. (仅 P2 和 G3 实例) 如果您在使用 P2 或 G3 实例,请完成优化 GPU 设置 (P2、P3 和 G3 实例) 中的优化步骤以实现 GPU 的最佳性能。