本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Deep Learning Conta PyTorch iner ARM64 s 适用于 2.7 EC2
Amazon 适用于亚马逊 EC2 的 Dee@@ p Learning Containers (DLCs)
此版本包括用于在 GPU 上训练的容器镜像,该镜像针对性能和扩展进行了优化 Amazon EC2。该镜像提供了 NVIDIA CUDA、cuDNN、NCCL 和其他组件的稳定版本。扫描此镜像中的所有软件组件是否存在安全漏洞,并根据 Amazon 安全最佳实践进行更新或修补。
可用容器列表可以在我们的文档中找到。使用我们开发者指南中的入门指南和从初学者到高级级别的教程,快速开始使用 Dee Amazon p Learning Containers。您也可以订阅我们的讨论论坛
发布说明
引入了 PyTorch 2.7 版的容器,用于训练 EC2。有关此版本的详细信息,请查看我们的 GitHub 发布标签
。 此图像应与 g5G 实例类型一起使用,后者由 G
raviton CPUs 和 NVIDIA T4G Tensor Core 提供支持。 GPUs 此镜像包括以下库:
CUDA 12.8.0
cudnn 9.8.0.87
NCCL 2.26.2
EFA 安装程序 1.40.0(嵌入了 Amazon OFI NCCL)
变压器引擎 2.0
闪电注意 2.7.3
GDRCopy 2.5
请注意,由于缺乏硬件支持,EFA、Transformer Engine、Flash Attention 和 GDRCopy 尚未经过测试。
有关最新更新,请参阅 aws/ 存储deep-learning-containers GitHub 库
安全建议
Amazon 建议客户监控安全公告中的关键Amazon 安全
Python 3.12 Support
PyTorch ARM64 训练容器支持 Python 3.12。
GPU 实例类型支持
这些容器支持 Graviton GPU 实例类型 g5G,并包含以下支持 GPU 的软件组件:
CUDA 12.8
cudnn 9.8.0.87+cuda12.8
NCCL 2.26.2+cuda12.8
Amazon 地区支持
这些容器可在以下地区使用:
区域 |
代码 |
---|---|
美国东部(俄亥俄州) |
us-east-2 |
美国东部(弗吉尼亚州北部) |
us-east-1 |
美国西部(俄勒冈州) |
us-west-2 |
美国西部(加利福尼亚北部) |
us-west-1 |
AF South(开普敦) |
af-south-1 |
亚太地区(香港) |
ap-east-1 |
亚太地区(海得拉巴) |
ap-south-2 |
亚太地区(孟买) |
ap-south-1 |
亚太地区(大阪) |
ap-northeast-3 |
亚太地区(首尔) |
ap-northeast-2 |
亚太地区(东京) |
ap-northeast-1 |
亚太地区(墨尔本) |
ap-southeast-4 |
亚太地区(雅加达) |
ap-southeast-3 |
亚太地区(悉尼) |
ap-southeast-2 |
亚太地区(新加坡) |
ap-southeast-1 |
亚太地区(马来西亚) |
ap-southeast-5 |
亚太地区(泰国) |
ap-southeast-7 |
墨西哥(中部) |
mx-central-1 |
加拿大(中部) |
ca-central-1 |
加拿大(卡尔加里) |
ca-west-1 |
欧洲(苏黎世) |
eu-central-2 |
欧洲(法兰克福) |
eu-central-1 |
欧洲(爱尔兰) |
eu-west-1 |
欧洲(伦敦) |
eu-west-2 |
欧盟(巴黎) |
eu-west-3 |
欧盟(西班牙) |
eu-south-2 |
欧盟(米兰) |
eu-south-1 |
欧洲(斯德哥尔摩) |
eu-north-1 |
以色列(特拉维夫) |
il-central-1 |
中东(巴林) |
me-south-1 |
中东(阿联酋) |
me-central-1 |
南非(圣保罗) |
sa-east-1 |
中国(北京) |
cn-north-1 |
中国(宁夏) |
cn-northwest-1 |
构建和测试
建立在:c6g.12xlarge
测试在:c8g.4xlarge、t4g.2xlarge、r8g.2xlarge、m7g.4xlarge、g5g.16xlarge、g5g.16xlarge
已知问题
-
ARM64/aarch64 还没有官方的 Triton 发行版
,因此一些 torch.compile 工作负载会失败,原因是: torch._dynamo.exc.BackendCompilerFailed: backend='inductor' raised: RuntimeError: Cannot find a working triton installation. More information on installing Triton can be found at https://github.com/openai/triton
参见GitHub 问题
:将 device_id 传递给 torch.distributed.init_process_group () 会导致 NCCL 在通信期间随机挂起。