

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon 深度学习 AMI GPU PyTorch 2.4 (Ubuntu 22.04)
<a name="aws-deep-learning-ami-gpu-pytorch-2.4-ubuntu-22-04"></a>

有关入门帮助，请参阅 [DLAMI 入门](getting-started.md)。

#### AMI 名称格式
<a name="name-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ 深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4。 \$1 \$1PATCH\$1VERSION\$1 (Ubuntu 22.04) \$1 \$1YYYY-MM-DD\$1

#### 支持的 EC2 实例
<a name="instances-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ 请参阅 [DLAMI 的重要更改](important-changes.md)。
+ 采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、G6、Gr6、P4、P4de、P5、P5e、P5en。

#### 该 AMI 包含以下内容：
<a name="contents-gpu-pytorch-2.4-ubuntu-22-04"></a>
+ **支持的 Amazon 服务**：EC2
+ **操作系统**：Ubuntu 22.04
+ **计算架构**：x86
+ **Python**:/opt/conda/envs/pytorch/bin/python
+ **NVIDIA Driver**：
  + OSS Nvidia Driver：550.144.03
+ **英伟达 CUDA12 .1 堆栈**：
  + CUDA、NCCL 和 cudDN 安装路径：/-12.4/ usr/local/cuda
  + **默认 CUDA：**12.4
    + 路径/ usr/local/cuda points to /usr/local/cuda -12.4/
    + 更新以下环境变量：
      +  LD\$1LIBRARY\$1PATH 要有/usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cuda/targets/x86\$164-linux/lib
      + 拥有路径/usr/local/cuda/bin/:/usr/local/cuda/include/
  + 编译后的系统 NCCL 版本现在/usr/local/cuda/: 2.21.5
  + PyTorch 从 c PyTorch onda 环境中编译的 NCCL 版本：2.20.5
+  **NCCL 测试位置：**
  + all\$1reduce、all\$1gather 和 reduce\$1scatter：/-cuda-xx.x/ usr/local/cuda-xx.x/efa/test
  + 为了运行 NCCL 测试，LD\$1LIBRARY\$1PATH 已经更新了必需的路径。
    + 已 PATHs 在 LD\$1LIBRARY\$1PATH 中添加了常见内容：
      +  /opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:/usr/local/lib:/usr/lib
  + LD\$1LIBRARY\$1PATH 更新为指向 CUDA 版本路径
    +  /usr/local/cuda/lib:/usr/local/cuda/lib64:/usr/local/cuda:/usr/local/cud/targets/x86\$164-linux/lib
+ **EFA 安装程序：**1.34.0
+ **英伟达 GDRCopy：**2.4.1
+ **Nvidia Transformer Engine：**v1.11.0
+ **Amazon OFI NCCL 插件**：作为 EFA Installer-Amazon 的一部分安装
  + **安装路径：**/已添加到 LD\$1L opt/aws-ofi-nccl/ . Path /opt/aws-ofi-nccl/lib IBRARY\$1PATH。
  + **测试响铃的路径**，消息传输：/opt/aws-ofi-nccl/tests
  + 注意： PyTorch 软件包还附带动态链接的 Amazon OFI NCCL 插件作为 conda 软件 aws-ofi-nccl-dlc包， PyTorch并将使用该软件包代替系统 OFI NCCL。 Amazon 
+ **Amazon CLI v2 是** **aws2，v1 是 aws Amazon CLI **
+ **EBS 卷类型**：gp3
+ **Python 版本：**3.11
+  **使用 SSM 参数查询 AMI-ID（示例区域为 us-east-1）：**
  +  **OSS Nvidia Driver**：

    ```
    aws ssm get-parameter --region us-east-1 \
            --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-pytorch-2.4-ubuntu-22.04/latest/ami-id \
            --query "Parameter.Value" \
            --output text
    ```
+  **使用以下方式查询 AMI-ID AWSCLI （示例区域为 us-east-1）：**
  +  **OSS Nvidia Driver：**

    ```
    aws ec2 describe-images --region us-east-1 \
        --owners amazon \
        --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU PyTorch 2.4.? (Ubuntu 22.04) ????????' 'Name=state,Values=available' \
        --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' \
        --output text
    ```

#### 通知
<a name="notices-gpu-pytorch-2.4-ubuntu-22-04"></a>

**P5/P5e 实例**
+ DeviceIndex 是唯一的 NetworkCard，并且必须是小于每个 ENI 限制的非负整数。 NetworkCard在 P5 上，每个 ENI 的数量 NetworkCard 为 2，这意味着的唯一有效值 DeviceIndex 是 0 或 1。以下是使用 awscli 的 EC2 P5 实例启动命令的示例，显示 NetworkCardIndex 从数字 0-31 开始，第一个接口显示 DeviceIndex 为 0，其余 31 个接口显示 DeviceIndex 为 1。

```
aws ec2 run-instances --region $REGION \
    --instance-type $INSTANCETYPE \
    --image-id $AMI --key-name $KEYNAME \
    --iam-instance-profile "Name=dlami-builder" \
    --tag-specifications "ResourceType=instance,Tags=[{Key=Name,Value=$TAG}]" \
    --network-interfaces "NetworkCardIndex=0,DeviceIndex=0,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=1,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=2,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=3,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      "NetworkCardIndex=4,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa" \
      ...
      "NetworkCardIndex=31,DeviceIndex=1,Groups=$SG,SubnetId=$SUBNET,InterfaceType=efa"
```

#### 发布日期：2025-02-17
<a name="2025-02-17-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 名称：**深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250216

##### 已更新
<a name="w2aac25c13b7c11c13b5"></a>
+ NVIDIA Container Toolkit 版本从 1.17.3 更新为 1.17.4
  + 有关更多信息，请参阅此处的发行说明页面：[ https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.](https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.4) 4
  + 在 Container Toolkit 版本 1.17.4 中，现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流中的多个 CUDA 版本兼容，请确保更新 LD\$1LIBRARY\$1PATH 以包含您的 CUDA 兼容性库，如[如果您使用 CUDA 兼容层](https://docs.amazonaws.cn/sagemaker/latest/dg/inference-gpu-drivers.html#collapsible-cuda-compat)教程中所示。

#### 发布日期：2025-01-21
<a name="2025-01-21-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 名称：**深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20250119

##### 已更新
<a name="w2aac25c13b7c11c15b5"></a>
+ Nvidia 驱动程序版本从 550.127.05 升级到 550.144.03，以解决 [2025 年 1 月版 NVIDIA GPU 显示器驱动程序安全公告](https://nvidia.custhelp.com/app/answers/detail/a_id/5614)中披露的 CVE 漏洞。

#### 发布日期：2024-11-18
<a name="2024-11-18-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 名称：**深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241116

##### Fixed
<a name="w2aac25c13b7c11c17b5"></a>
+ 由于 Ubuntu 内核为解决内核地址空间布局随机化（KASLR）功能中的缺陷而进行了更改，导致 G4Dn/G5 实例无法在 OSS Nvidia Driver 上正常初始化 CUDA。为缓解此问题，该 DLAMI 包括了一项功能，可为 G4Dn 和 G5 实例动态加载专有驱动程序。为了确保您的实例能够正常工作，请为此加载预留一段短暂的初始化时间。
  + 要查看此服务的状态和运行情况，您可以使用以下命令：

```
sudo systemctl is-active dynamic_driver_load.service active
```

#### 发布日期：2024-10-16
<a name="2024-10-16-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 名称**：深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20241016

##### 新增了
<a name="w2aac25c13b7c11c19b5"></a>
+ 添加了用于加速 Transformer 模型的 N TransformerEngine vidia v1.11.0（更多详细信息，请参阅 transformer-.htm [ https://docs.nvidia.com/deeplearning/l](https://docs.nvidia.com/deeplearning/transformer-engine/user-guide/index.html)）engine/user-guide/index

#### 发布日期：2024-09-30
<a name="2024-09-30-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 名称**：深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240929

##### 已更新
<a name="w2aac25c13b7c11c21b5"></a>
+ Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2，旨在解决安全漏洞 [CVE-2024-0133](https://nvd.nist.gov/vuln/detail/CVE-2024-0133)。

#### 发布日期：2024-09-26
<a name="2024-09-26-gpu-pytorch-2.4-ubuntu-22-04"></a>

**AMI 名称**：深度学习 OSS Nvidia 驱动程序 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 20240925

##### 新增了
<a name="w2aac25c13b7c11c23b5"></a>
+ 深度学习 AMI GPU PyTorch 2.4.1 (Ubuntu 22.04) 系列的首次发布。包括配备 NVIDIA 驱动程序 R550、CUDA=12.4.1、cuda=8.9.7、NCCL=2.20.5 和 EFA=1.34.0 的 conda 环境。 PyTorch 