Amazon Deep Learning Conta PyTorch iner ARM64 s 适用于 2.7 EC2 - Amazon 深度学习容器
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Deep Learning Conta PyTorch iner ARM64 s 适用于 2.7 EC2

Amazon 适用于亚马逊 EC2 的 Dee@@ p Learning Containers (DLCs) 现已适用于 ARM64 平台,包括 Amazon Graviton 实例类型,在 Ubuntu 22.04 上支持 PyTorch 2.7 和 CUDA 12.8。

此版本包括用于在 GPU 上训练的容器镜像,该镜像针对性能和扩展进行了优化 Amazon EC2。该镜像提供了 NVIDIA CUDA、cuDNN、NCCL 和其他组件的稳定版本。扫描此镜像中的所有软件组件是否存在安全漏洞,并根据 Amazon 安全最佳实践进行更新或修补。

可用容器列表可以在我们的文档中找到。使用我们开发者指南中的入门指南和从初学者到高级级别的教程,快速开始使用 Dee Amazon p Learning Containers。您也可以订阅我们的讨论论坛以获取发布公告并发布您的问题。

发布说明

有关最新更新,请参阅 aws/ 存储deep-learning-containers GitHub 库

安全建议

Amazon 建议客户监控安全公告中的关键Amazon 安全更新。

Python 3.12 Support

PyTorch ARM64 训练容器支持 Python 3.12。

GPU 实例类型支持

这些容器支持 Graviton GPU 实例类型 g5G,并包含以下支持 GPU 的软件组件:

  • CUDA 12.8

  • cudnn 9.8.0.87+cuda12.8

  • NCCL 2.26.2+cuda12.8

Amazon 地区支持

这些容器可在以下地区使用:

区域

代码

美国东部(俄亥俄州)

us-east-2

美国东部(弗吉尼亚州北部)

us-east-1

美国西部(俄勒冈州)

us-west-2

美国西部(加利福尼亚北部)

us-west-1

AF South(开普敦)

af-south-1

亚太地区(香港)

ap-east-1

亚太地区(海得拉巴)

ap-south-2

亚太地区(孟买)

ap-south-1

亚太地区(大阪)

ap-northeast-3

亚太地区(首尔)

ap-northeast-2

亚太地区(东京)

ap-northeast-1

亚太地区(墨尔本)

ap-southeast-4

亚太地区(雅加达)

ap-southeast-3

亚太地区(悉尼)

ap-southeast-2

亚太地区(新加坡)

ap-southeast-1

亚太地区(马来西亚)

ap-southeast-5

亚太地区(泰国)

ap-southeast-7

墨西哥(中部)

mx-central-1

加拿大(中部)

ca-central-1

加拿大(卡尔加里)

ca-west-1

欧洲(苏黎世)

eu-central-2

欧洲(法兰克福)

eu-central-1

欧洲(爱尔兰)

eu-west-1

欧洲(伦敦)

eu-west-2

欧盟(巴黎)

eu-west-3

欧盟(西班牙)

eu-south-2

欧盟(米兰)

eu-south-1

欧洲(斯德哥尔摩)

eu-north-1

以色列(特拉维夫)

il-central-1

中东(巴林)

me-south-1

中东(阿联酋)

me-central-1

南非(圣保罗)

sa-east-1

中国(北京)

cn-north-1

中国(宁夏)

cn-northwest-1

构建和测试

  • 建立在:c6g.12xlarge

  • 测试在:c8g.4xlarge、t4g.2xlarge、r8g.2xlarge、m7g.4xlarge、g5g.16xlarge、g5g.16xlarge

已知问题

  • ARM64/aarch64 还没有官方的 Triton 发行版,因此一些 torch.compile 工作负载会失败,原因是:

    torch._dynamo.exc.BackendCompilerFailed: backend='inductor' raised: RuntimeError: Cannot find a working triton installation. More information on installing Triton can be found at https://github.com/openai/triton
  • 参见GitHub 问题:将 device_id 传递给 torch.distributed.init_process_group () 会导致 NCCL 在通信期间随机挂起。