本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon 适用于 PyTorch 2.4 训练的深度学习容器 SageMaker
Amazon 适用于亚马逊(SMDLCs)的 Dee@@ p Learning
此版本包括用于在 GPU 上训练的容器镜像,针对性能和扩展进行了优化 Amazon。这些 Docker 镜像已通过 SM 服务进行了测试,提供了稳定版本的 NVIDIA CUDA、Intel MKL 和其他组件,为运行深度学习工作负载提供了优化的用户体验。 Amazon对这些映像中的所有软件组件进行安全漏洞扫描,并根据 Amazon 安全最佳实践进行更新或修补。这些新的 DLC 专为在 SM 服务上使用而设计。
可用容器列表可以在我们的文档中找到。使用我们开发者指南中的入门指南和从初学者到高级级别的教程,快速开始使用 Dee Amazon p Learning Containers。您也可以订阅我们的讨论论坛
发布说明
为 PyTorch 2.4.0引入了支持 SageMaker 服务的训练容器。有关此版本的详细信息,请查看我们的 GitHub 发布标签
。 PyTorch 2.4 支持 python 自定义运算符 API,允许用户将 Triton 内核等自定义内核集成到 torch.compile 中。
PyTorch 2.4 还提供 AOTInductor 冻结功能,允许进行更多 AOTInductor 优化。它还提供了一个使用libuv的新默认 TCPStore 服务器后端,这应该可以减少大规模作业的初始化时间。
有关更新的完整说明,请参阅此处
的 PyTorch 2.4 官方发行说明。 添加了 EC2 P5 实例支持
添加了 Python 3.11 支持
添加了 CUDA 12.4 支持
添加了 Ubuntu 22.04 支持
GPU Docker 镜像包含以下库:
CUDA 12.4.1
cudnn 9.1.0.70
NCCL 2.22.3
Amazon OFI NCCL 插件 1.11.0
EFA 安装程序 1.34.0
变压器引擎 1.9
闪电注意 2.4.2
GDRCopy 2.4.1
Apex 24.04.01
有关最新更新,请参阅 aws/ 存储deep-learning-containers GitHub 库
安全建议
Amazon 建议客户监控安全公告中的关键Amazon 安全
Python 3.11 Support
PyTorch 训练和推理容器支持 Python 3.11。
CPU 实例类型支持
这些容器支持 x86_64 实例类型。
GPU 实例类型支持
这些容器支持 GPU 实例类型,并包含以下支持 GPU 的软件组件:
CUDA 12.4.1
cudnn 9.1.0.70+cuda12.4
NCCL 2.22.3+cuda12.4
Amazon 地区支持
这些容器可在以下地区使用:
区域 |
代码 |
---|---|
美国东部(俄亥俄州) |
us-east-2 |
美国东部(弗吉尼亚州北部) |
us-east-1 |
美国西部(俄勒冈州) |
us-west-2 |
美国西部(加利福尼亚北部) |
us-west-1 |
AF South(开普敦) |
af-south-1 |
亚太地区(香港) |
ap-east-1 |
亚太地区(海得拉巴) |
ap-south-2 |
亚太地区(孟买) |
ap-south-1 |
亚太地区(大阪) |
ap-northeast-3 |
亚太地区(首尔) |
ap-northeast-2 |
亚太地区(东京) |
ap-northeast-1 |
亚太地区(墨尔本) |
ap-southeast-4 |
亚太地区(雅加达) |
ap-southeast-3 |
亚太地区(悉尼) |
ap-southeast-2 |
亚太地区(新加坡) |
ap-southeast-1 |
亚太地区(马来西亚) |
ap-southeast-5 |
加拿大(中部) |
ca-central-1 |
加拿大(卡尔加里) |
ca-west-1 |
欧洲(苏黎世) |
eu-central-2 |
欧洲(法兰克福) |
eu-central-1 |
欧洲(爱尔兰) |
eu-west-1 |
欧洲(伦敦) |
eu-west-2 |
欧盟(巴黎) |
eu-west-3 |
欧盟(西班牙) |
eu-south-2 |
欧盟(米兰) |
eu-south-1 |
欧洲(斯德哥尔摩) |
eu-north-1 |
以色列(特拉维夫) |
il-central-1 |
中东(巴林) |
me-south-1 |
中东(阿联酋) |
me-central-1 |
南非(圣保罗) |
sa-east-1 |
中国(北京) |
cn-north-1 |
中国(宁夏) |
cn-northwest-1 |
构建和测试
建立在:c5.18xlarge
已在:g3.16xlarge、p3.16xlarge、p3dn.24xlarge、p4d.24xlarge、p4d.24xlarge、p4de.24xlarge、g4dn.xlarge、p5.48xlarge、p5.48xlarge
使用 Resnet50、BERT 以及上的 ImageNet EC2数据集、ECS AMI(亚马逊 Linux AMI 2.0.20240515)和 EKS AMI(-1.25.16-20240514)进行了测试 amazon-eks-gpu-node