本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon深度学习 AMI GPU TensorFlow 2.16 (亚马逊 Linux 2)
有关入门帮助,请参阅 DLAMI 入门。
AMI 名称格式
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16 (亚马逊 Linux 2) $ {YYY-MM-DD}
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16 (亚马逊 Linux 2) $ {YYYY-MM-DD}
支持的 EC2 实例
请参阅 DLAMI 的重要更改。
采用 OSS Nvidia Driver 的 Deep Learning 支持 G4dn、G5、G6、Gr6、G6e、P4d、P4de、P5、P5e、P5en。
采用 Proprietary Nvidia Driver 的 Deep Learning 支持 G3(不支持 G3.16x)、P3、P3dn
该 AMI 包含以下内容:
支持的Amazon服务: EC2
操作系统:Amazon Linux 2
计算架构:x86
Python:/opt/tensorflow/bin/python3.10
TensorFlow 版本:2.16
NVIDIA Driver:
OSS Nvidia Driver:550.144.03
Proprietary Nvidia Driver:550.144.03
英伟达 CUDA12 堆栈:
CUDA、NCCL 和 cudDN 安装路径:/-12.2/ usr/local/cuda
EFA 安装程序:1.34.0
Amazon CLI v2 是 aws2,v1 是 aws Amazon CLI
EBS 卷类型:gp3
使用 SSM 参数查询 AMI-ID(示例区域为 us-east-1):
OSS Nvidia Driver:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/oss-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output textProprietary Nvidia Driver:
aws ssm get-parameter --name /aws/service/deeplearning/ami/x86_64/proprietary-nvidia-driver-gpu-tensorflow-2.16-amazon-linux-2/latest/ami-id --region us-east-1 --query "Parameter.Value" --output text
使用以下方式查询 AMI-ID AWSCLI (示例区域为 us-east-1):
OSS Nvidia Driver:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning OSS Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output textroprietary Nvidia Driver:
aws ec2 describe-images --region us-east-1 --owners amazon --filters 'Name=name,Values=Deep Learning Proprietary Nvidia Driver AMI GPU TensorFlow 2.16 (Amazon Linux 2) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text
Notice
NVIDIA Container Toolkit 1.17.4
在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流程中的多个 CUDA 版本兼容,请确保更新您的 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如此处 “如果您使用 CUDA 兼容层” 教程下所示-gpu-drivers.html# https://docs.aws.amazon.com/sagemaker/ latest/dg/inference collapsible-cuda-compat
未来的 TensorFlow 操作系统更新
TensorFlow 2.16 将是最后一款使用 Ubuntu 20.04 操作系统的 DLAMI。从 TensorFlow 2.17及以上版本开始, DLAMIs 将开始使用Ubuntu 22.04作为基本操作系统。对于计划升级到这些新版本的客户,请确保您的工作流已为此升级做好准备。
Keras 版本固定为 2.0 而不是 3.0
在最新的 TF2 .16 版本中,Keras 已从主版本 2 升级到主版本 3.0。此 Keras 版本是对 Keras 包的完全重写(有关更多信息,请参阅 Keras 3 文档
source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS
发布日期:2025-02-17
AMI 名称:
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20250215
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20250215
已更新
NVIDIA Container Toolkit 版本从 1.17.3 更新为 1.17.4
有关更多信息,请参阅此处的发行说明页面:https://github.com/NVIDIA/nvidia-container-toolkit/releases/tag/v1.17.
4 在 Container Toolkit 版本 1.17.4 中,现在禁用挂载 CUDA 兼容性库。为了确保与容器工作流程中的多个 CUDA 版本兼容,请确保更新您的 LD_LIBRARY_PATH 以包含您的 CUDA 兼容性库,如此处 “如果您使用 CUDA 兼容层” 教程下所示-gpu-drivers.html# https://docs.aws.amazon.com/sagemaker/ latest/dg/inference collapsible-cuda-compat
已删除
删除了 NVIDIA CUDA Toolkit
提供的用户空间库 cuobj 和 nvdisasm,以解决 2025 年 2 月 18 日版 NVIDIA CUDA Toolkit 安全公告 中披露的 CVE 漏洞
发布日期:2025-01-20
AMI 名称:
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20250120
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20250118
已更新
Nvidia 驱动程序版本从 550.127.05 升级到 550.144.03,以解决 2025 年 1 月版 NVIDIA GPU 显示器驱动程序安全公告
中披露的 CVE 漏洞
发布日期:2024-10-23
AMI 名称:
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20241022
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20241023
已更新
Nvidia 驱动程序版本从 550.90.07 升级到 550.127.05,以解决 2024 年 10 月版 NVIDIA GPU 显示器安全公告
中披露的 CVE 漏洞
发布日期:2024-09-28
AMI 名称:
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240928
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240928
已更新
Nvidia Container Toolkit 版本从 1.16.1 升级到 1.16.2,旨在解决安全漏洞 CVE-2024-0133
。
发布日期:2024-09-21
AMI 名称:
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240921
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240921
已更新
Nvidia 驱动程序和 Fabric Manager 版本从 535.183.01 升级到 550.90.07
EFA 版本从 1.32.0 升级到 1.34.0
将 PyTorch 版本从版本 2.3.0 更新到 2.3.1
新增了
在 OSS Nvidia 驱动程序映像上添加了对 P5e EC2 实例的支持。
发布日期:2024-08-19
AMI 名称:
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240817
新增了
增加了对 G6e 实例 EC2
的支持。
版本 2.16.2 - 发布日期:2024-07-26
AMI 名称:
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240725
已更新
将 TensorFlow 补丁版本从版本 2.16.1 更新为 2.16.2
已解决 2024-0 TensorFlow 7-17 发布的 DLAMI 中次要版本不正确的问题
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240717 版本无意中包含 TensorFlow 次要版本 2.17 而不是 2.16。请确保依赖于 TensorFlow 2.16 的工作流程正在升级到最新的 DLAMI。
版本 2.16.1 - 发布日期:2024-06-10
AMI 名称:
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240607
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240610
已更新
Nvidia 驱动程序版本从 535.183.01 更新为 535.161.08
发布日期:2024-05-10
请参阅 DLAMI 的重要更改
AMI 名称:
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240510
深度学习 OSS Nvidia Driver AMI GPU TensorFlow 2.16(亚马逊 Linux 2)20240510
新增了
以下系列的初始版本:
深度学习专有 Nvidia 驱动程序 AMI GPU TensorFlow 2.16(亚马逊 Linux 2)系列。
深度学习 OSS Nvidia 驱动程序 AMI GPU TensorFlow 2.16(亚马逊 Linux 2)系列。
软件包括以下内容:
"nvidia-driver=535.161.08"
"fabric-manager=535.161.08"
"cuda=12.3"
"cudnn=8.9.7"
"efa=1.32.0"
"nccl=2.21.5"
“aws-nccl-ofi-plugin=v1.9.1-aws”
添加了 tensorflow 虚拟环境(激活命令源/opt/tensorflow/bin/activate)。该环境包括以下内容:
"tensorflow=2.16.1"
注意
从 TF2 .16 开始,移除了 tf.estimator API。
要继续使用 tf.estimator,需要使用 TF 2.15 或更早的版本。有关更多信息,请参阅 TensorFlow 2.16.1 发行说明
为了确保与客户工作流保持兼容,我们使用环境变量 TF_USE_LEGACY_KERAS=1 将 Keras 版本固定为 2.0。如果您的工作流程需要使用 Keras 3.0,请使用以下脚本从您的 TensorFlow 虚拟环境 /opt/tensorflow 中移除此环境变量:
source /opt/tensorflow/bin/activate unset TF_USE_LEGACY_KERAS