Amazon 适用于 PyTorch 2.4 Graviton on EC2、ECS 和 EKS 的 Deep Learning Containers - Amazon 深度学习容器
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 适用于 PyTorch 2.4 Graviton on EC2、ECS 和 EKS 的 Deep Learning Containers

Amazon 适用于亚马逊弹性 Kubernetes Service (EKS)、亚马逊弹性计算云 () 和亚马逊弹性@@ 容器服务 EC2 (ECS) 的深度学习容器 (DLC) 现已可用于支持 2.4 的 Graviton 实例类型。 PyTorch

此版本包括用于在 CPU 和 GPU 上进行推理的容器映像,并针对性能和扩展进行了 Amazon优化。CPU 映像已通过每个 EC2、ECS 和 EKS 服务进行了测试,而 GPU 映像仅支持 EC2 (参见下表)。GPU 映像提供 NVIDIA CUDA、cuDNN、NCCL 和其他组件的稳定版本。对这些映像中的所有软件组件进行安全漏洞扫描,并根据 Amazon 安全最佳实践进行更新或修补。

EC2

ECS

EKS

Graviton CPU

支持

支持

支持

Graviton 搭载 NVIDIA G

支持

不支持

不支持

可用容器列表可以在我们的文档中找到。使用我们开发者指南中的入门指南和从初学者到高级级别的教程,快速开始使用 Dee Amazon p Learning Containers。您也可以订阅我们的讨论论坛以获取发布公告并发布您的问题。

发布说明

性能改进

它们 DLCs 继续在Graviton CPU上为BERT和Ro BERTa 情绪分析以及填充掩模模型提供最佳性能,这使Graviton3成为这些模型在云端最具成本效益的CPU平台。 Amazon 欲了解更多信息,请参阅 Graviton PyTorch 用户指南

安全建议

Amazon 建议客户监控安全公告中的关键Amazon 安全更新。

Python 3.11 Support

PyTorch Graviton 推理容器支持 Python 3.11。

CPU 实例类型支持

这些容器支持上述每项服务所支持的 Graviton CPU 实例类型。

GPU 实例类型支持

这些容器支持 Graviton GPU 实例类型 g5G,并包含以下支持 GPU 的软件组件:

  • CUDA 12.4.0

  • cudnn 9.1.0.70+cuda12.4

  • NCCL 2.20.5+cuda12.4

Amazon 地区支持

这些容器可在以下地区使用:

区域

代码

美国东部(俄亥俄州)

us-east-2

美国东部(弗吉尼亚州北部)

us-east-1

美国西部(俄勒冈州)

us-west-2

美国西部(加利福尼亚北部)

us-west-1

AF South(开普敦)

af-south-1

亚太地区(香港)

ap-east-1

亚太地区(海得拉巴)

ap-south-2

亚太地区(孟买)

ap-south-1

亚太地区(大阪)

ap-northeast-3

亚太地区(首尔)

ap-northeast-2

亚太地区(东京)

ap-northeast-1

亚太地区(墨尔本)

ap-southeast-4

亚太地区(雅加达)

ap-southeast-3

亚太地区(悉尼)

ap-southeast-2

亚太地区(新加坡)

ap-southeast-1

亚太地区(马来西亚)

ap-southeast-5

中部(加拿大)

ca-central-1

加拿大(卡尔加里)

ca-west-1

欧洲(苏黎世)

eu-central-2

欧洲(法兰克福)

eu-central-1

欧洲(爱尔兰)

eu-west-1

欧洲(伦敦)

eu-west-2

欧盟(巴黎)

eu-west-3

欧盟(西班牙)

eu-south-2

欧盟(米兰)

eu-south-1

欧洲(斯德哥尔摩)

eu-north-1

以色列(特拉维夫)

il-central-1

中东(巴林)

me-south-1

中东(阿联酋)

me-central-1

南非(圣保罗)

sa-east-1

中国(北京)

cn-north-1

中国(宁夏)

cn-northwest-1

构建和测试

  • 建立在:c6g.2xlarge

  • 经过测试:c7g.4xlarge、c6g.4xlarge、t4g.2xlarge、r6g.2xlarge、m6g.4xlarge、g5g.4xlarge、g5g.4xlarge、g5g.4xlarg

  • 在 EC2 ECS AMI(亚马逊 Linux AMI 2.0.20220822 arm64)和 EKS AMI(1.25.6-20230304 arm64)上的 MNIST 和 Resnet50/ DenseNet 数据集上进行了测试

已知问题

  • ARM64/aarch64 还没有官方的 Triton 发行版,因此一些 torch.compile 工作负载会失败,原因是:

    torch._dynamo.exc.BackendCompilerFailed: backend='inductor' raised: RuntimeError: Cannot find a working triton installation. More information on installing Triton can be found at https://github.com/openai/triton

有关最新更新,请参阅 aws/ 存储deep-learning-containers GitHub 库