本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
支持的框架, Amazon Web Services 区域、实例类型和经过测试的模型
重要
Amazon Web Services (Amazon) 宣布, SageMaker 训练编译器将没有新版本或新版本。你可以继续通过现有的 Dee Amazon p Lear SageMaker ning Containers (DLC) 使用 Training Compiler 进行 SageMaker 训练。值得注意的是,尽管现有的 DLC 仍然可以访问,但根据Amazon 深度学习容器框架支持政策 Amazon,它们将不再收到来自的补丁或更新。
在使用 T SageMaker raining Compiler 之前,请检查您选择的框架是否受支持 Amazon Web Services 账户,您的实例类型 Amazon Web Services 账户 是否在支持的框架中可用 Amazon Web Services 区域。
注意
SageMaker 训练编译器在 SageMaker Python SDK v2.70.0 或更高版本中可用。
支持的框架
SageMaker Training Compiler 支持以下深度学习框架,可通过 Deep Learning C Amazon ontainers 获得。
PyTorch
| 框架 | 框架版本 | 深度学习容器 URI | 对 Docker 自定义可扩展 |
|---|---|---|---|
| PyTorch | PyTorch v1.13.1 | 763104351884.dkr.ecr。 <region>.amazonaws。 com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
否 |
| PyTorch v1.12.0 | 763104351884.dkr.ecr。 <region>.amazonaws。 com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker |
否 | |
| PyTorch 用 Hugging Face 变形金刚 |
Transformers v4.21.1 PyTorch v1.11.0 |
763104351884.dkr.ecr。 |
否 |
|
Transformers v4.17.0 PyTorch v1.10.2 |
763104351884.dkr.ecr。 |
否 | |
|
Transformers v4.11.0 PyTorch v1.9.0 |
763104351884.dkr.ecr。 |
否 |
TensorFlow
| 框架 | 框架版本 | 深度学习容器 URI | 对 Docker 自定义可扩展 |
|---|---|---|---|
| TensorFlow |
TensorFlow v2.11.0 |
763104351884.dkr.ecr。 |
是 |
|
TensorFlow v2.10.0 |
763104351884.dkr.ecr。 |
是 | |
|
TensorFlow v2.9.1 |
763104351884.dkr.ecr。 |
是 | |
| TensorFlow 用 Hugging Face 变形金刚 |
Transformers v4.17.0 TensorFlow v2.6.3 |
763104351884.dkr.ecr。 |
否 |
|
Transformers v4.11.0 TensorFlow v2.5.1 |
763104351884.dkr.ecr。 |
否 |
有关更多信息,请参阅 Dee Amazon p Learning Containers GitHub 存储库中的可用镜像
Amazon Web Services 区域
SageMaker 训练编译器容器
支持的实例类型
SageMaker 训练编译器经过测试并支持以下 ML 实例类型。
-
P4 实例
-
P3 实例
-
G4dn 实例
-
G5 实例
有关实例类型的规格,请参阅 Amazon EC2 实例类型
如果您遇到类似以下内容的错误消息,请按照请求增加 SageMaker AI 资源的服务配额中的说明进行操作。
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact Amazon support to request an increase for this limit.
经过测试的模型
下表列出了使用 SageMaker 训练编译器测试过的模型。作为参考,内存中能够容纳的最大批量也包含在其他训练参数旁边。 SageMaker Training Compiler 可以更改模型训练过程的内存占用;因此,在训练过程中通常可以使用更大的批次大小,从而进一步缩短总训练时间。在某些情况下,Tra SageMaker ining Compiler 会智能地促进缓存,从而减少可容纳 GPU 的最大批量大小。您必须重新调整模型超参数并找到最适合您的案例的批处理大小。为了节省时间,请使用以下参考表来查找批处理大小,这将是您的使用案例的良好起点。
注意
批处理大小是适合相应实例类型中的每个 GPU 的本地批处理大小。在更改批处理大小时,您还应调整学习率。
自然语言处理 (NLP) 模型
在单节点和多节点、单或多 GPU 核心以及所示自动混合精度 (AMP) 的所有组合下,针对训练作业测试了以下模型。
| Single-node/multi-node单-GPU/multi-GPU | ||||||
|---|---|---|---|---|---|---|
| 模型 | 数据集 | 实例类型 | 精度 | 序列长度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
| albert-base-v2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 80 | 192 |
| albert-base-v2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 | 332 |
| albert-base-v2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 80 | 224 |
| bert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 160 | 288 |
| camembert-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 160 | 280 |
| distilbert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 240 | 472 |
| distilgpt2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 77 | 128 |
| distilgpt2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 138 | 390 |
| distilgpt2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 96 | 256 |
| distilroberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 96 | 192 |
| distilroberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 171 | 380 |
| distilroberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 112 | 256 |
| gpt2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 52 | 152 |
| gpt2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 84 | 240 |
| gpt2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 58 | 164 |
| microsoft/deberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 48 | 128 |
| microsoft/deberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 84 | 207 |
| microsoft/deberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 53 | 133 |
| roberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 125 | 224 |
| xlm-roberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 16 | 31 |
| xlm-roberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 18 | 50 |
| xlnet-base-cased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 | 240 |
| bert-base-uncased | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 29 | 50 |
| distilbert-base-uncased | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 45 | 64 |
| gpt2 | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 18 | 45 |
| roberta-base | wikitext-103-v1 | g5.48xlarge | float16 | 512 | 23 | 44 |
| gpt2 | wikitext-103-v1 | p4d.24xlarge | float16 | 512 | 36 | 64 |
计算机视觉 (CV) 模型
如图所示,使用具有自动混合精度 (AMP) 的 M TensorFlowodel Garden
| Single/multi-node single/multi-GPU | |||||
|---|---|---|---|---|---|
| 模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
| ResNet152 | food101 | g4dn.16xlarge | float16 | 128 | 144 |
| ResNet152 | food101 | g5.4xlarge | float16 | 128 | 192 |
| ResNet152 | food101 | p3.2xlarge | float16 | 152 | 156 |
| ViT | food101 | g4dn.16xlarge | float16 | 512 | 512 |
| ViT | food101 | g5.4xlarge | float16 | 992 | 768 |
| ViT | food101 | p3.2xlarge | float16 | 848 | 768 |
自然语言处理 (NLP) 模型
在单节点和多节点、单或多 GPU 核心以及所示自动混合精度 (AMP) 的所有组合下,针对训练作业测试了以下模型。
| Single-node/multi-node单-GPU/multi-GPU | ||||||
|---|---|---|---|---|---|---|
| 模型 | 数据集 | 实例类型 | 精度 | 序列长度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
| albert-base-v2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 128 | 248 |
| bert-base-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 160 | 288 |
| camembert-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 160 | 279 |
| camembert-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 105 | 164 |
| distilgpt2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 136 | 256 |
| distilgpt2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 80 | 118 |
| gpt2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 84 | 240 |
| gpt2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 80 | 119 |
| microsoft/deberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 93 | 197 |
| microsoft/deberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 113 | 130 |
| roberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 125 | 224 |
| roberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 78 | 112 |
| xlnet-base-cased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 138 | 240 |
| bert-base-uncased | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 52 | |
| distilbert-base-uncased | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 160 | |
| gpt2 | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 25 | |
| roberta-base | wikitext-103-v1 | ml.p4d.24xlarge | float16 | 512 | 64 | |
计算机视觉 (CV) 模型
如图所示,使用具有自动混合精度 (AMP) 的 M TensorFlowodel Garden
| Single/multi-node single/multi-GPU | |||||
|---|---|---|---|---|---|
| 模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
| MaskRCNN-ResNet50-FPN | COCO-2017 | ml.g5.2xlarge | float16 | 6 | 8 |
| MaskRCNN-ResNet50-FPN | COCO-2017 | ml.p3.2xlarge | float16 | 4 | 6 |
| ResNet50 | ImageNet | ml.g5.2xlarge | float16 | 192 | 256 |
| ResNet50 | ImageNet | ml.p3.2xlarge | float16 | 256 | 256 |
| ResNet101 | ImageNet | ml.g5.2xlarge | float16 | 128 | 256 |
| ResNet101 | ImageNet | ml.p3.2xlarge | float16 | 128 | 128 |
| ResNet152 | ImageNet | ml.g5.2xlarge | float16 | 128 | 224 |
| ResNet152 | ImageNet | ml.p3.2xlarge | float16 | 128 | 128 |
| VisionTransformer | ImageNet | ml.g5.2xlarge | float16 | 112 | 144 |
| VisionTransformer | ImageNet | ml.p3.2xlarge | float16 | 96 | 128 |
自然语言处理 (NLP) 模型
已结合使用带 Sequence_Len=128 的转换器模型
| Single/multi-node single/multi-GPU | |||||
|---|---|---|---|---|---|
| 模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
| albert-base-v2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 160 | 197 |
| albert-base-v2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 95 | 127 |
| bert-base-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 160 | 128 |
| bert-base-uncased | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 104 | 111 |
| bert-large-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 65 | 48 |
| bert-large-uncased | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 40 | 35 |
| camembert-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 162 |
| camembert-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 105 | 111 |
| distilbert-base-uncased | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 256 | 264 |
| distilbert-base-uncased | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 128 | 169 |
| gpt2 | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 120 |
| gpt2 | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 80 | 83 |
| jplu/tf-xlm-roberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 32 | 32 |
| jplu/tf-xlm-roberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 32 | 36 |
| microsoft/mpnet-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 144 | 160 |
| microsoft/mpnet-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 106 | 110 |
| roberta-base | wikitext-2-raw-v1 | ml.g5.2xlarge | float16 | 128 | 128 |
| roberta-base | wikitext-2-raw-v1 | ml.p3.2xlarge | float16 | 72 | 98 |
| albert-base-v2 | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 128 | 192 |
| albert-base-v2 | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 95 | 96 |
| distilbert-base-uncased | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 256 | 256 |
| distilbert-base-uncased | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 140 | 184 |
| google/electra-小鉴别器 | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 256 | 384 |
| google/electra-小鉴别器 | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 256 | 268 |
| gpt2 | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 116 | 116 |
| gpt2 | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 85 | 83 |
| gpt2 | wikitext-2-raw-v1 | ml.p4d.24xlarge | float16 | 94 | 110 |
| microsoft/mpnet-base | wikitext-2-raw-v1 | ml.g5.48xlarge | float16 | 187 | 164 |
| microsoft/mpnet-base | wikitext-2-raw-v1 | ml.p3.16xlarge | float16 | 106 | 111 |
计算机视觉 (CV) 模型
如图所示,使用具有自动混合精度 (AMP) 的 M TensorFlowodel Garden
| Single-node单-GPU/multi-GPU | |||||
|---|---|---|---|---|---|
| 模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
| DetectionTransformer-ResNet50 | COCO-2017 | ml.g4dn.2xlarge | float32 | 2 | 4 |
| DetectionTransformer-ResNet50 | COCO-2017 | ml.g5.2xlarge | float32 | 3 | 6 |
| DetectionTransformer-ResNet50 | COCO-2017 | ml.p3.2xlarge | float32 | 2 | 4 |
| MaskRCNN-ResNet50-FPN | COCO-2017 | ml.g4dn.2xlarge | float16 | 4 | 6 |
| MaskRCNN-ResNet50-FPN | COCO-2017 | ml.g5.2xlarge | float16 | 6 | 8 |
| MaskRCNN-ResNet50-FPN | COCO-2017 | ml.g5.48xlarge | float16 | 48 | 64 |
| MaskRCNN-ResNet50-FPN | COCO-2017 | ml.p3.2xlarge | float16 | 4 | 6 |
| ResNet50 | ImageNet | ml.g4dn.2xlarge | float16 | 224 | 256 |
| ResNet50 | ImageNet | ml.g5.2xlarge | float16 | 192 | 160 |
| ResNet50 | ImageNet | ml.g5.48xlarge | float16 | 2048 | 2048 |
| ResNet50 | ImageNet | ml.p3.2xlarge | float16 | 224 | 160 |
| ResNet101 | ImageNet | ml.g4dn.2xlarge | float16 | 160 | 128 |
| ResNet101 | ImageNet | ml.g5.2xlarge | float16 | 192 | 256 |
| ResNet101 | ImageNet | ml.g5.48xlarge | float16 | 2048 | 2048 |
| ResNet101 | ImageNet | ml.p3.2xlarge | float16 | 160 | 224 |
| ResNet152 | ImageNet | ml.g4dn.2xlarge | float16 | 128 | 128 |
| ResNet152 | ImageNet | ml.g5.2xlarge | float16 | 192 | 224 |
| ResNet152 | ImageNet | ml.g5.48xlarge | float16 | 1536 | 1792 |
| ResNet152 | ImageNet | ml.p3.2xlarge | float16 | 128 | 160 |
| VisionTransformer | ImageNet | ml.g4dn.2xlarge | float16 | 80 | 128 |
| VisionTransformer | ImageNet | ml.g5.2xlarge | float16 | 112 | 144 |
| VisionTransformer | ImageNet | ml.g5.48xlarge | float16 | 896 | 1152 |
| VisionTransformer | ImageNet | ml.p3.2xlarge | float16 | 80 | 128 |
自然语言处理 (NLP) 模型
已结合使用带 Sequence_Len=128 的转换器模型
| Single-node单-GPU/multi-GPU | |||||
|---|---|---|---|---|---|
| 模型 | 数据集 | 实例类型 | 精度 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
| albert-base-v2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 128 | 112 |
| albert-base-v2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 128 |
| albert-base-v2 | wikitext-2-raw-v1 | p3.8xlarge | float16 | 128 | 135 |
| albert-base-v2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 191 |
| bert-base-uncased | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 64 | 94 |
| bert-base-uncased | wikitext-2-raw-v1 | p3.2xlarge | float16 | 96 | 101 |
| bert-base-uncased | wikitext-2-raw-v1 | p3.8xlarge | float16 | 96 | 96 |
| bert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 |
| bert-large-uncased | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 35 | 21 |
| bert-large-uncased | wikitext-2-raw-v1 | p3.2xlarge | float16 | 39 | 26 |
| bert-large-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 60 | 50 |
| camembert-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 96 | 90 |
| camembert-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 96 | 98 |
| camembert-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 96 | 96 |
| camembert-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 |
| distilbert-base-uncased | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 256 | 160 |
| distilbert-base-uncased | wikitext-2-raw-v1 | p3.2xlarge | float16 | 128 | 176 |
| distilbert-base-uncased | wikitext-2-raw-v1 | p3.8xlarge | float16 | 128 | 160 |
| distilbert-base-uncased | wikitext-2-raw-v1 | g5.4xlarge | float16 | 256 | 258 |
| google_electra-small-discriminator | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 256 | 216 |
| google_electra-small-discriminator | wikitext-2-raw-v1 | p3.2xlarge | float16 | 256 | 230 |
| google_electra-small-discriminator | wikitext-2-raw-v1 | p3.8xlarge | float16 | 256 | 224 |
| google_electra-small-discriminator | wikitext-2-raw-v1 | g5.4xlarge | float16 | 256 | 320 |
| gpt2 | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 80 | 64 |
| gpt2 | wikitext-2-raw-v1 | p3.2xlarge | float16 | 80 | 77 |
| gpt2 | wikitext-2-raw-v1 | p3.8xlarge | float16 | 80 | 72 |
| gpt2 | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 120 |
| jplu_tf-xlm-roberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 28 | 24 |
| jplu_tf-xlm-roberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 32 | 24 |
| jplu_tf-xlm-roberta-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 32 | 26 |
| jplu_tf-xlm-roberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 66 | 52 |
| microsoft_mpnet-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 96 | 92 |
| microsoft_mpnet-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 96 | 101 |
| microsoft_mpnet-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 96 | 101 |
| microsoft_mpnet-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 152 |
| roberta-base | wikitext-2-raw-v1 | g4dn.16xlarge | float16 | 64 | 72 |
| roberta-base | wikitext-2-raw-v1 | p3.2xlarge | float16 | 64 | 84 |
| roberta-base | wikitext-2-raw-v1 | p3.8xlarge | float16 | 64 | 86 |
| roberta-base | wikitext-2-raw-v1 | g5.4xlarge | float16 | 128 | 128 |
使用具有自动混合精度 (AMP) 的 TensorFlowModel Garden
| Single-node单-GPU/multi-GPU | ||||
|---|---|---|---|---|
| 模型 | 数据集 | 实例类型 | 原生框架的批处理大小 | SageMaker 训练编译器的批次大小 |
| ResNet50 | ImageNet | ml.g4dn.2xlarge | 192 | 256* |
| ResNet101 | ImageNet | ml.g4dn.2xlarge | 128 | 160 |
| ml.g5.2xlarge | 224 | 256* | ||
| ml.p3.16xlarge | 1536 | 1792 | ||
| ResNet152 | ImageNet | ml.g5.2xlarge | 192 | 224 |
| ml.p3.2xlarge | 160 | 160 | ||
| ml.p3.16xlarge | 1024 | 1 280 | ||
| VisionTransformer | ImageNet | ml.g4dn.2xlarge | 80 | 128* |
| ml.g5.2xlarge | 112 | 128* | ||
| ml.p3.2xlarge | 56 | 128* | ||
| ml.p3.16xlarge | 640 | 1024* | ||
| DetectionTransformer-ResNet50 | COCO-2017 | ml.g4dn.2xlarge | 2 | 2 |
| ml.g5.2xlarge | 3 | 6 | ||
| ml.p3.2xlarge | 2 | 4 | ||
| ml.p3.16xlarge | 8 | 32 | ||
| MaskRCNN-ResNet50-FPN | COCO-2017 | ml.g4dn.2xlarge | 4 | 4 |
| ml.g5.2xlarge | 6 | 8 | ||
| ml.p3.2xlarge | 4 | 6 | ||
* 标有星号 (*) 的批量大小表示 SageMaker 训练编译器开发团队测试的最大批量。对于已标记的单元格,该实例可能能够容纳比所示批处理大小更大的批处理大小。
已通过 Sequence_Len=512 和自动混合精度 (AMP) 进行测试。
| Single-node 单 GPU | |||||
|---|---|---|---|---|---|
| 模型 | 数据集 | 实例类型 | 实例计数 | 原生框架的批处理大小 | Training Compiler 的批处理大小 |
| albert-base-v2 | wikitext-2 | ml.g4dn.2xlarge | 1 | 14 | 28 |
| ml.g5.2xlarge | 1 | 18 | 40 | ||
| ml.p3.2xlarge | 1 | 14 | 32 | ||
| bert-base-cased | wikitext-2 | ml.g4dn.2xlarge | 1 | 12 | 24 |
| ml.g5.2xlarge | 1 | 28 | 44 | ||
| ml.p3.2xlarge | 1 | 16 | 20 | ||
| camembert-base | wikitext-2 | ml.g4dn.2xlarge | 1 | 16 | 28 |
| ml.g5.2xlarge | 1 | 24 | 40 | ||
| ml.p3.2xlarge | 1 | 16 | 24 | ||
| distilbert-base-uncased | wikitext-2 | ml.g4dn.2xlarge | 1 | 28 | 52 |
| ml.g5.2xlarge | 1 | 40 | 76 | ||
| ml.p3.2xlarge | 1 | 32 | 48 | ||
| wikitext-103-v1 | ml.p4d.24xlarge | 4 | 82 | 160 | |
| distilgpt2 | wikitext-2 | ml.g4dn.2xlarge | 1 | 6 | 18 |
| ml.g5.2xlarge | 1 | 12 | 28 | ||
| ml.p3.2xlarge | 1 | 6 | 16 | ||
| distilroberta-base | wikitext-2 | ml.g4dn.2xlarge | 1 | 20 | 40 |
| ml.g5.2xlarge | 1 | 28 | 56 | ||
| ml.p3.2xlarge | 1 | 24 | 40 | ||
| EleutherAI/gpt-neo-125M | wikitext-2 | ml.g4dn.2xlarge | 1 | 4 | 8 |
| ml.g5.2xlarge | 1 | 6 | 14 | ||
| ml.p3.2xlarge | 1 | 4 | 10 | ||
| gpt2 | wikitext-2 | ml.g4dn.2xlarge | 1 | 4 | 8 |
| ml.g5.2xlarge | 1 | 6 | 16 | ||
| ml.p3.2xlarge | 1 | 4 | 10 | ||
| wikitext-103-v1 | ml.p4d.24xlarge | 4 | 13 | 25 | |
| roberta-base | wikitext-2 | ml.g4dn.2xlarge | 1 | 12 | 20 |
| ml.g5.2xlarge | 1 | 24 | 36 | ||
| ml.p3.2xlarge | 1 | 12 | 20 | ||
| wikitext-103-v1 | ml.p4d.24xlarge | 4 | 36 | 64 | |
| xlnet-base-cased | wikitext-2 | ml.g4dn.2xlarge | 1 | 2 | 6 |
| ml.g5.2xlarge | 1 | 2 | 10 | ||
| ml.p3.2xlarge | 1 | 2 | 8 | ||
| bert-base-uncased | wikitext-103-v1 | ml.p4d.24xlarge | 2 | 32 | 64 |
| 4 | 32 | 64 | |||
| 8 | 32 | 64 | |||
| 16 | 32 | 64 | |||
| roberta-large | wikitext-103-v1 | ml.p4d.24xlarge | 4 | 16 | 24 |
| microsoft/deberta-v3 base | wikitext-103-v1 | ml.p4d.24xlarge | 16 | 9 | 23 |
已通过 Sequence_Len=512 和自动混合精度 (AMP) 进行测试。
| Single-node 单 GPU | |||
|---|---|---|---|
| 模型 | 实例类型 | 原生框架的批处理大小 | Training Compiler 的批处理大小 |
| albert-base-v2 | ml.p3.2xlarge | 14 | 28 |
| ml.g4dn.2xlarge | 14 | 24 | |
| bert-base-cased | ml.p3.2xlarge | 16 | 24 |
| ml.g4dn.2xlarge | 12 | 24 | |
| bert-base-uncased | ml.p3.2xlarge | 16 | 24 |
| ml.g4dn.2xlarge | 12 | 28 | |
| camembert-base | ml.p3.2xlarge | 12 | 24 |
| ml.g4dn.2xlarge | 12 | 28 | |
| distilbert-base-uncased | ml.p3.2xlarge | 28 | 48 |
| ml.g4dn.2xlarge | 24 | 52 | |
| distilgpt2 | ml.p3.2xlarge | 6 | 12 |
| ml.g4dn.2xlarge | 6 | 14 | |
| distilroberta-base | ml.p3.2xlarge | 20 | 40 |
| ml.g4dn.2xlarge | 12 | 40 | |
| EleutherAI/gpt-neo-125M | ml.p3.2xlarge | 2 | 10 |
| ml.g4dn.2xlarge | 2 | 8 | |
| facebook/bart-base | ml.p3.2xlarge | 2 | 6 |
| ml.g4dn.2xlarge | 2 | 6 | |
| gpt2 | ml.p3.2xlarge | 4 | 8 |
| ml.g4dn.2xlarge | 2 | 8 | |
| roberta-base | ml.p3.2xlarge | 12 | 20 |
| ml.g4dn.2xlarge | 12 | 20 | |
| xlnet-base-cased | ml.p3.2xlarge | 2 | 8 |
| ml.g4dn.2xlarge | 4 | 6 | |
已通过 Sequence_Len=512 和自动混合精度 (AMP) 进行测试。
| Single-node 单 GPU | |||
|---|---|---|---|
| 模型 | 实例类型 | 本机的批处理大小 | Training Compiler 的批处理大小 |
| albert-base-v2 | ml.p3.2xlarge | 12 | 32 |
| bert-base-cased | ml.p3.2xlarge | 14 | 24 |
| bert-base-chinese | ml.p3.2xlarge | 16 | 24 |
| bert-base-multilingual-cased | ml.p3.2xlarge | 4 | 16 |
| bert-base-multilingual-uncased | ml.p3.2xlarge | 8 | 16 |
| bert-base-uncased | ml.p3.2xlarge | 12 | 24 |
| cl-base-japanes tohoku/bert e-word-masking | ml.p3.2xlarge | 12 | 24 |
| cl--bas tohoku/bert e-japanese | ml.p3.2xlarge | 12 | 24 |
| distilbert-base-uncased | ml.p3.2xlarge | 28 | 32 |
| distilbert-base-uncased-finetuned-sst-2-english | ml.p3.2xlarge | 28 | 32 |
| distilgpt2 | ml.p3.2xlarge | 16 | 32 |
| facebook/bart-base | ml.p3.2xlarge | 4 | 8 |
| gpt2 | ml.p3.2xlarge | 6 | 20 |
| nreimers/MiniLMv2-L6-H384-distilled-from-RoBERTa-Large | ml.p3.2xlarge | 20 | 32 |
| roberta-base | ml.p3.2xlarge | 12 | 20 |
| Single-node 多 GPU | |||
|---|---|---|---|
| 模型 | 实例类型 | 本机的批处理大小 | Training Compiler 的批处理大小 |
| bert-base-chinese | ml.p3.8xlarge | 16 | 26 |
| bert-base-multilingual-cased | ml.p3.8xlarge | 6 | 16 |
| bert-base-multilingual-uncased | ml.p3.8xlarge | 6 | 16 |
| bert-base-uncased | ml.p3.8xlarge | 14 | 24 |
| distilbert-base-uncased | ml.p3.8xlarge | 14 | 32 |
| distilgpt2 | ml.p3.8xlarge | 6 | 32 |
| facebook/bart-base | ml.p3.8xlarge | 8 | 16 |
| gpt2 | ml.p3.8xlarge | 8 | 20 |
| roberta-base | ml.p3.8xlarge | 12 | 20 |
已通过 Sequence_Len=128 和自动混合精度 (AMP) 进行测试。
| 模型 | 实例类型 | 原生框架的批处理大小 | Training Compiler 的批处理大小 |
|---|---|---|---|
| albert-base-v2 | ml.g4dn.16xlarge | 136 | 208 |
| albert-base-v2 | ml.g5.4xlarge | 219 | 312 |
| albert-base-v2 | ml.p3.2xlarge | 152 | 208 |
| albert-base-v2 | ml.p3.8xlarge | 152 | 192 |
| bert-base-uncased | ml.g4dn.16xlarge | 120 | 101 |
| bert-base-uncased | ml.g5.4xlarge | 184 | 160 |
| bert-base-uncased | ml.p3.2xlarge | 128 | 108 |
| bert-large-uncased | ml.g4dn.16xlarge | 37 | 28 |
| bert-large-uncased | ml.g5.4xlarge | 64 | 55 |
| bert-large-uncased | ml.p3.2xlarge | 40 | 32 |
| camembert-base | ml.g4dn.16xlarge | 96 | 100 |
| camembert-base | ml.g5.4xlarge | 190 | 160 |
| camembert-base | ml.p3.2xlarge | 129 | 108 |
| camembert-base | ml.p3.8xlarge | 128 | 104 |
| distilbert-base-uncased | ml.g4dn.16xlarge | 210 | 160 |
| distilbert-base-uncased | ml.g5.4xlarge | 327 | 288 |
| distilbert-base-uncased | ml.p3.2xlarge | 224 | 196 |
| distilbert-base-uncased | ml.p3.8xlarge | 192 | 182 |
| google_electra-small-discriminator | ml.g4dn.16xlarge | 336 | 288 |
| google_electra-small-discriminator | ml.g5.4xlarge | 504 | 384 |
| google_electra-small-discriminator | ml.p3.2xlarge | 352 | 323 |
| gpt2 | ml.g4dn.16xlarge | 89 | 64 |
| gpt2 | ml.g5.4xlarge | 140 | 146 |
| gpt2 | ml.p3.2xlarge | 94 | 96 |
| gpt2 | ml.p3.8xlarge | 96 | 88 |
| jplu_tf-xlm-roberta-base | ml.g4dn.16xlarge | 52 | 16 |
| jplu_tf-xlm-roberta-base | ml.g5.4xlarge | 64 | 44 |
| microsoft_mpnet-base | ml.g4dn.16xlarge | 120 | 100 |
| microsoft_mpnet-base | ml.g5.4xlarge | 192 | 160 |
| microsoft_mpnet-base | ml.p3.2xlarge | 128 | 104 |
| microsoft_mpnet-base | ml.p3.8xlarge | 130 | 92 |
| roberta-base | ml.g4dn.16xlarge | 108 | 64 |
| roberta-base | ml.g5.4xlarge | 176 | 142 |
| roberta-base | ml.p3.2xlarge | 118 | 100 |
| roberta-base | ml.p3.8xlarge | 112 | 88 |
已通过 Sequence_Len=128 和自动混合精度 (AMP) 进行测试。
| Single-node 单 GPU | |||
|---|---|---|---|
| 模型 | 实例类型 | 本机的批处理大小 | Training Compiler 的批处理大小 |
| albert-base-v2 | ml.p3.2xlarge | 128 | 128 |
| bart-base | ml.p3.2xlarge | 12 | 64 |
| bart-large | ml.p3.2xlarge | 4 | 28 |
| bert-base-cased | ml.p3.2xlarge | 16 | 128 |
| bert-base-chinese | ml.p3.2xlarge | 16 | 128 |
| bert-base-multilingual-cased | ml.p3.2xlarge | 12 | 64 |
| bert-base-multilingual-uncased | ml.p3.2xlarge | 16 | 96 |
| bert-base-uncased | ml.p3.2xlarge | 16 | 96 |
| bert-large-uncased | ml.p3.2xlarge | 4 | 24 |
| cl--bas tohoku/bert e-japanese | ml.p3.2xlarge | 16 | 128 |
| cl-base-japanes tohoku/bert e-word-masking | ml.p3.2xlarge | 16 | 128 |
| distilbert-base-sst2 | ml.p3.2xlarge | 32 | 128 |
| distilbert-base-uncased | ml.p3.2xlarge | 32 | 128 |
| distilgpt2 | ml.p3.2xlarge | 32 | 128 |
| gpt2 | ml.p3.2xlarge | 12 | 64 |
| gpt2-large | ml.p3.2xlarge | 2 | 24 |
| jplu/tf-xlm-roberta-base | ml.p3.2xlarge | 12 | 32 |
| roberta-base | ml.p3.2xlarge | 4 | 64 |
| roberta-large | ml.p3.2xlarge | 4 | 64 |
| t5-base | ml.p3.2xlarge | 64 | 64 |
| t5-small | ml.p3.2xlarge | 128 | 128 |