支持的框架Amazon Web Services 区域、实例类型和测试模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

支持的框架Amazon Web Services 区域、实例类型和测试模型

在使用 T SageMaker raining Compiler 之前,请检查您选择的框架是否受支持、您的Amazon账户中是否有实例类型以及您的Amazon账户是否在其中一个支持的框架中Amazon Web Services 区域。

注意

SageMaker 训练编译器在 SageMaker Python SDK v2.70.0 或更高版本中可用。

支持的框架

SageMaker Training Compiler 支持以下深度学习框架,可通过DeeAmazon p Learning Containers 使用。

PyTorch

框架 框架映像 深度学习容器 URI 可扩展以实现 Docker 自定义
PyTorch PyTorch v1.13.1 763104351884.dkr.ecr。 <region>.amazonaws.com/: 1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerpytorch-trcomp-training
PyTorch v1.12.0 763104351884.dkr.ecr。 <region>.amazonaws.com/: 1.13.1-gpu-py39-cu117-ubuntu20.04-sagemakerpytorch-trcomp-training
PyTorch 有拥抱脸变形金刚

变形金刚 v4.21.1

PyTorch v1.11.0

763104351884.dkr.ecr。 <region>.amazonaws.com/: 1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04huggingface-pytorch-trcomp-training

变形金刚 v4.17.0

PyTorch v1.10.2

763104351884.dkr.ecr。 <region>.amazonaws.com/: 1.10.2-transformers4.17.0-gpu-py38-cu113-ubuntu20.04huggingface-pytorch-trcomp-training

变形金刚 v4.11.0

PyTorch v1.9.0

763104351884.dkr.ecr。 <region>.amazonaws.com/: 1.9.0-transformers4.11.0-gpu-py38-cu111-ubuntu20.04huggingface-pytorch-training-comp

TensorFlow

框架 框架映像 深度学习容器 URI 可扩展以实现 Docker 自定义
TensorFlow

TensorFlow v2.11.0

763104351884.dkr.ecr。 <region>.amazonaws.com/tensorflow-training: 2.11.0-gpu-py39-cu112-ubuntu20.04-sagemaker

TensorFlow v2.10.0

763104351884.dkr.ecr。 <region>.amazonaws.com/tensorflow-training: 2.10.0-gpu-py39-cu112-ubuntu20.04-sagemaker

TensorFlow v2.9.1

763104351884.dkr.ecr。 <region>.amazonaws.com/tensorflow-training: 2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker

TensorFlow 有拥抱脸变形金刚

变形金刚 v4.17.0

TensorFlow v2.6.3

763104351884.dkr.ecr。 <region>.amazonaws.com/: 2.6.3-transformers4.17.0-gpu-py38-cu112-ubuntu20.04huggingface-tensorflow-trcomp-training

变形金刚 v4.11.0

TensorFlow v2.5.1

763104351884.dkr.ecr。 <region>.amazonaws.com/: 2.5.1-transformers4.11.0-gpu-py37-cu112-ubuntu18.04huggingface-tensorflow-training-comp

有关更多信息,请参阅Dee Amazonp Learning Containers GitHub 存储库中的可用图像

Amazon Web Services 区域

SageMaker 训练编译器容器可在Dee Amazonp Learning Conta iners 投入使用Amazon Web Services 区域的地方使用,中国区域除外。

支持的 实例类型

SageMaker 训练编译器经过测试并支持以下 ML 实例类型。

  • P4 实例

  • P3 实例

  • G4dn 实例

  • G5 实例

有关实例类型的规格,请参阅 Amazon EC2 实例类型页面中的加速计算部分。有关实例定价的信息,请参阅 Amazon SageMaker 定价

如果您遇到与以下内容类似的错误消息,请按照请求增加 SageMaker 资源服务配额中的说明进行操作。

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact Amazon support to request an increase for this limit.

经过测试的模型

下表包含已使用 SageMaker 训练编译器测试的模型列表。作为参考,与其他训练参数一起还包括了能够容纳到内存中的最大批次大小。 SageMaker Training Compiler 可以更改模型训练过程的内存占用;因此,在训练过程中通常可以使用更大的批次大小,从而进一步减少总训练时间。在某些情况下,Tra SageMaker ining Compiler 会智能地促进缓存,从而减小 GPU 上可以容纳的最大批次大小。您必须重新调整模型超参数并为您的案例找到最佳批次大小。为了节省时间,请使用以下参考表来查找批次大小,这可以作为您的用例的良好起点。

注意

批量大小是适合相应实例类型中每个 GPU 的本地批次大小。在更改批次大小时,还应调整学习率。

自然语言处理 (NLP) 模型

以下模型经过测试,适用于单节点和多节点所有组合的训练作业,包括单节点或多个 GPU 内核以及自动混合精度 (AMP),如上所示。

单节点/多节点单 GPU/多 GPU
模型 数据集 实例类型 精度 顺序长度 原生框架的Batch 大小 SageMaker 训练编译器的Batch 大小
albert-base-v2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 80 192
albert-base-v2 wikitext-2-raw-v1 g5.4xlarge float16 128 128 332
albert-base-v2 wikitext-2-raw-v1 p3.2xlarge float16 128 80 224
bert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 128 160 288
卡门伯特基础 wikitext-2-raw-v1 g5.4xlarge float16 128 160 280
distilbert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 128 240 472
distilgpt2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 77 128
distilgpt2 wikitext-2-raw-v1 g5.4xlarge float16 128 138 390
distilgpt2 wikitext-2-raw-v1 p3.2xlarge float16 128 96 256
Distilrobert的基本映像 wikitext-2-raw-v1 g4dn.16xlarge float16 128 96 192
Distilrobert的基本映像 wikitext-2-raw-v1 g5.4xlarge float16 128 171 380
Distilrobert的基本映像 wikitext-2-raw-v1 p3.2xlarge float16 128 112 256
gpt2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 52 152
gpt2 wikitext-2-raw-v1 g5.4xlarge float16 128 84 240
gpt2 wikitext-2-raw-v1 p3.2xlarge float16 128 58 164
微软/deberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 128 48 128
微软/deberta-base wikitext-2-raw-v1 g5.4xlarge float16 128 84 207
微软/deberta-base wikitext-2-raw-v1 p3.2xlarge float16 128 53 133
罗伯塔Base wikitext-2-raw-v1 g5.4xlarge float16 128 125 224
facebook/bart-base xsum g4dn.16xlarge float16 128 10 16
facebook/bart-base xsum g5.4xlarge float16 128 16 32
facebook/bart-larg xsum g5.4xlarge float16 128 5 8
facebook/bart-larg xsum p3.2xlarge float16 128 2 4
xlm-roberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 128 16 31
xlm-roberta-base wikitext-2-raw-v1 p3.2xlarge float16 128 18 50
xlnet-base-cased wikitext-2-raw-v1 g5.4xlarge float16 128 128 240
bert-base-uncased wikitext-103-v1 g5.48xlarge float16 512 29 50
distilbert-base-uncased wikitext-103-v1 g5.48xlarge float16 512 45 64
gpt2 wikitext-103-v1 g5.48xlarge float16 512 18 45
罗伯塔Base wikitext-103-v1 g5.48xlarge float16 512 23 44
gpt2 wikitext-103-v1 p4d.24xlarge float16 512 36 64

计算机视觉 (CV) 模型

如图所示,使用具有自动混合精度 (AMP) 的 TensorFlowModel Gar den 进行了测试。

单/多节点单/多 GPU
模型 数据集 实例类型 精度 原生框架的Batch 大小 SageMaker 训练编译器的Batch 大小
ResNet152 food101 g4dn.16xlarge float16 128 144
ResNet152 food101 g5.4xlarge float16 128 192
ResNet152 food101 p3.2xlarge float16 152 156
ViT food101 g4dn.16xlarge float16 512 512
ViT food101 g5.4xlarge float16 992 768
ViT food101 p3.2xlarge float16 848 768

自然语言处理 (NLP) 模型

以下模型经过测试,适用于单节点和多节点所有组合的训练作业,包括单节点或多个 GPU 内核以及自动混合精度 (AMP),如上所示。

单节点/多节点单 GPU/多 GPU
模型 数据集 实例类型 精度 顺序长度 原生框架的Batch 大小 SageMaker 训练编译器的Batch 大小
albert-base-v2 wikitext-2-raw-v1 ml.g2x2xxlg2xlg float16 128 128 248
bert-base-uncased wikitext-2-raw-v1 ml.g2x2xxlg2xlg float16 128 160 288
卡门伯特基础 wikitext-2-raw-v1 ml.g2x2xxlg2xlg float16 128 160 279
卡门伯特基础 wikitext-2-raw-v1 ml.p3.2xlarge float16 128 105 164
distilgpt2 wikitext-2-raw-v1 ml.g2x2xxlg2xlg float16 128 136 256
distilgpt2 wikitext-2-raw-v1 ml.p3.2xlarge float16 128 80 118
gpt2 wikitext-2-raw-v1 ml.g2x2xxlg2xlg float16 128 84 240
gpt2 wikitext-2-raw-v1 ml.p3.2xlarge float16 128 80 119
微软/deberta-base wikitext-2-raw-v1 ml.g2x2xxlg2xlg float16 128 93 197
微软/deberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 128 113 130
罗伯塔Base wikitext-2-raw-v1 ml.g2x2xxlg2xlg float16 128 125 224
罗伯塔Base wikitext-2-raw-v1 ml.p3.2xlarge float16 128 78 112
xlnet-base-cased wikitext-2-raw-v1 ml.g2x2xxlg2xlg float16 128 138 240
bert-base-uncased wikitext-103-v1 ml.p4d.24xlarge float16 512 52
distilbert-base-uncased wikitext-103-v1 ml.p4d.24xlarge float16 512 160
gpt2 wikitext-103-v1 ml.p4d.24xlarge float16 512 25
罗伯塔Base wikitext-103-v1 ml.p4d.24xlarge float16 512 64

计算机视觉 (CV) 模型

如图所示,使用具有自动混合精度 (AMP) 的 TensorFlowModel Gar den 进行了测试。

单/多节点单/多 GPU
模型 数据集 实例类型 精度 原生框架的Batch 大小 SageMaker 训练编译器的Batch 大小
MaskrCNN-ResNet 50-FPN COCO-2017 ml.g2x2xxlg2xlg float16 6 8
MaskrCNN-ResNet 50-FPN COCO-2017 ml.p3.2xlarge float16 4 6
ResNet50 ImageNet ml.g2x2xxlg2xlg float16 192 256
ResNet50 ImageNet ml.p3.2xlarge float16 256 256
ResNet101 ImageNet ml.g2x2xxlg2xlg float16 128 256
ResNet101 ImageNet ml.p3.2xlarge float16 128 128
ResNet152 ImageNet ml.g2x2xxlg2xlg float16 128 224
ResNet152 ImageNet ml.p3.2xlarge float16 128 128
VisionTransformer ImageNet ml.g2x2xxlg2xlg float16 112 144
VisionTransformer ImageNet ml.p3.2xlarge float16 96 128

自然语言处理 (NLP) 模型

如图所示,使用具有Sequence_Len=128自动混合精度 (AMP) 的变压器模型进行了测试。

单/多节点单/多 GPU
模型 数据集 实例类型 精度 原生框架的Batch 大小 SageMaker 训练编译器的Batch 大小
albert-base-v2 wikitext-2-raw-v1 ml.g5.2xlarge float16 160 197
albert-base-v2 wikitext-2-raw-v1 ml.p3.2xlarge float16 95 127
bert-base-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 160 128
bert-base-uncased wikitext-2-raw-v1 ml.p3.2xlarge float16 104 111
bert-large-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 65 48
bert-large-uncased wikitext-2-raw-v1 ml.p3.2xlarge float16 40 35
卡门伯特基础 wikitext-2-raw-v1 ml.g5.2xlarge float16 128 162
卡门伯特基础 wikitext-2-raw-v1 ml.p3.2xlarge float16 105 111
distilbert-base-uncased wikitext-2-raw-v1 ml.g5.2xlarge float16 256 264
distilbert-base-uncased wikitext-2-raw-v1 ml.p3.2xlarge float16 128 169
gpt2 wikitext-2-raw-v1 ml.g5.2xlarge float16 128 120
gpt2 wikitext-2-raw-v1 ml.p3.2xlarge float16 80 83
jplu/tf-xlm-roberta-base wikitext-2-raw-v1 ml.g5.2xlarge float16 32 32
jplu/tf-xlm-roberta-base wikitext-2-raw-v1 ml.p3.2xlarge float16 32 36
微软/mpnet-base wikitext-2-raw-v1 ml.g5.2xlarge float16 144 160
微软/mpnet-base wikitext-2-raw-v1 ml.p3.2xlarge float16 106 110
罗伯塔Base wikitext-2-raw-v1 ml.g5.2xlarge float16 128 128
罗伯塔Base wikitext-2-raw-v1 ml.p3.2xlarge float16 72 98
albert-base-v2 wikitext-2-raw-v1 ml.g5.48xlarge float16 128 192
albert-base-v2 wikitext-2-raw-v1 ml.p3.16xlarge float16 95 96
distilbert-base-uncased wikitext-2-raw-v1 ml.g5.48xlarge float16 256 256
distilbert-base-uncased wikitext-2-raw-v1 ml.p3.16xlarge float16 140 184
谷歌/electra-small-discriminator wikitext-2-raw-v1 ml.g5.48xlarge float16 256 384
谷歌/electra-small-discriminator wikitext-2-raw-v1 ml.p3.16xlarge float16 256 268
gpt2 wikitext-2-raw-v1 ml.g5.48xlarge float16 116 116
gpt2 wikitext-2-raw-v1 ml.p3.16xlarge float16 85 83
gpt2 wikitext-2-raw-v1 ml.p4d.24xlarge float16 94 110
微软/mpnet-base wikitext-2-raw-v1 ml.g5.48xlarge float16 187 164
微软/mpnet-base wikitext-2-raw-v1 ml.p3.16xlarge float16 106 111

计算机视觉 (CV) 模型

如图所示,使用具有自动混合精度 (AMP) 的 TensorFlowModel Gar den 进行了测试。

单节点单 GPU/多 GPU
模型 数据集 实例类型 精度 原生框架的Batch 大小 SageMaker 训练编译器的Batch 大小
DetectionTransformer-ResNet 50 COCO-2017 ml.g4dn.2xlarge float32 2 4
DetectionTransformer-ResNet 50 COCO-2017 ml.g5.2xlarge float32 3 6
DetectionTransformer-ResNet 50 COCO-2017 ml.p3.2xlarge float32 2 4
MaskrCNN-ResNet 50-FPN COCO-2017 ml.g4dn.2xlarge float16 4 6
MaskrCNN-ResNet 50-FPN COCO-2017 ml.g5.2xlarge float16 6 8
MaskrCNN-ResNet 50-FPN COCO-2017 ml.g5.48xlarge float16 48 64
MaskrCNN-ResNet 50-FPN COCO-2017 ml.p3.2xlarge float16 4 6
ResNet50 ImageNet ml.g4dn.2xlarge float16 224 256
ResNet50 ImageNet ml.g5.2xlarge float16 192 160
ResNet50 ImageNet ml.g5.48xlarge float16 2048 2048
ResNet50 ImageNet ml.p3.2xlarge float16 224 160
ResNet101 ImageNet ml.g4dn.2xlarge float16 160 128
ResNet101 ImageNet ml.g5.2xlarge float16 192 256
ResNet101 ImageNet ml.g5.48xlarge float16 2048 2048
ResNet101 ImageNet ml.p3.2xlarge float16 160 224
ResNet152 ImageNet ml.g4dn.2xlarge float16 128 128
ResNet152 ImageNet ml.g5.2xlarge float16 192 224
ResNet152 ImageNet ml.g5.48xlarge float16 1536 1792
ResNet152 ImageNet ml.p3.2xlarge float16 128 160
VisionTransformer ImageNet ml.g4dn.2xlarge float16 80 128
VisionTransformer ImageNet ml.g5.2xlarge float16 112 144
VisionTransformer ImageNet ml.g5.48xlarge float16 896 1152
VisionTransformer ImageNet ml.p3.2xlarge float16 80 128

自然语言处理 (NLP) 模型

如图所示,使用具有Sequence_Len=128自动混合精度 (AMP) 的变压器模型进行了测试。

单节点单 GPU/多 GPU
模型 数据集 实例类型 精度 原生框架的Batch 大小 SageMaker 训练编译器的Batch 大小
albert-base-v2 wikitext-2-raw-v1 g4dn.16xlarge float16 128 112
albert-base-v2 wikitext-2-raw-v1 p3.2xlarge float16 128 128
albert-base-v2 wikitext-2-raw-v1 p3.8xlarge float16 128 135
albert-base-v2 wikitext-2-raw-v1 g5.4xlarge float16 128 191
bert-base-uncased wikitext-2-raw-v1 g4dn.16xlarge float16 64 94
bert-base-uncased wikitext-2-raw-v1 p3.2xlarge float16 96 101
bert-base-uncased wikitext-2-raw-v1 p3.8xlarge float16 96 96
bert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 128 128
bert-large-uncased wikitext-2-raw-v1 g4dn.16xlarge float16 35 21
bert-large-uncased wikitext-2-raw-v1 p3.2xlarge float16 39 26
bert-large-uncased wikitext-2-raw-v1 g5.4xlarge float16 60 50
卡门伯特基础 wikitext-2-raw-v1 g4dn.16xlarge float16 96 90
卡门伯特基础 wikitext-2-raw-v1 p3.2xlarge float16 96 98
卡门伯特基础 wikitext-2-raw-v1 p3.8xlarge float16 96 96
卡门伯特基础 wikitext-2-raw-v1 g5.4xlarge float16 128 128
distilbert-base-uncased wikitext-2-raw-v1 g4dn.16xlarge float16 256 160
distilbert-base-uncased wikitext-2-raw-v1 p3.2xlarge float16 128 176
distilbert-base-uncased wikitext-2-raw-v1 p3.8xlarge float16 128 160
distilbert-base-uncased wikitext-2-raw-v1 g5.4xlarge float16 256 258
谷歌_electra-small-discriminator wikitext-2-raw-v1 g4dn.16xlarge float16 256 216
谷歌_electra-small-discriminator wikitext-2-raw-v1 p3.2xlarge float16 256 230
谷歌_electra-small-discriminator wikitext-2-raw-v1 p3.8xlarge float16 256 224
谷歌_electra-small-discriminator wikitext-2-raw-v1 g5.4xlarge float16 256 320
gpt2 wikitext-2-raw-v1 g4dn.16xlarge float16 80 64
gpt2 wikitext-2-raw-v1 p3.2xlarge float16 80 77
gpt2 wikitext-2-raw-v1 p3.8xlarge float16 80 72
gpt2 wikitext-2-raw-v1 g5.4xlarge float16 128 120
jplu_tf-xlm-roberta-base wikitext-2-raw-v1 g4dn.16xlarge float16 28 24
jplu_tf-xlm-roberta-base wikitext-2-raw-v1 p3.2xlarge float16 32 24
jplu_tf-xlm-roberta-base wikitext-2-raw-v1 p3.8xlarge float16 32 26
jplu_tf-xlm-roberta-base wikitext-2-raw-v1 g5.4xlarge float16 66 52
微软_mpnet-base wikitext-2-raw-v1 g4dn.16xlarge float16 96 92
微软_mpnet-base wikitext-2-raw-v1 p3.2xlarge float16 96 101
微软_mpnet-base wikitext-2-raw-v1 p3.8xlarge float16 96 101
微软_mpnet-base wikitext-2-raw-v1 g5.4xlarge float16 128 152
罗伯塔Base wikitext-2-raw-v1 g4dn.16xlarge float16 64 72
罗伯塔Base wikitext-2-raw-v1 p3.2xlarge float16 64 84
罗伯塔Base wikitext-2-raw-v1 p3.8xlarge float16 64 86
罗伯塔Base wikitext-2-raw-v1 g5.4xlarge float16 128 128

使用具有自动混合精度 (AMP) 的 TensorFlowModel Gar den 进行了测试。

单节点单 GPU/多 GPU
模型 数据集 实例类型 原生框架的Batch 大小 SageMaker 训练编译器的Batch 大小
ResNet50 ImageNet ml.g4dn.2xlarge 192 256*
ResNet101 ImageNet ml.g4dn.2xlarge 128 160
ml.g5.2xlarge 224 256*
ml.p3.16xlarge 1536 1792
ResNet152 ImageNet ml.g5.2xlarge 192 224
ml.p3.2xlarge 160 160
ml.p3.16xlarge 1024 1 280
VisionTransformer ImageNet ml.g4dn.2xlarge 80 128*
ml.g5.2xlarge 112 128*
ml.p3.2xlarge 56 128*
ml.p3.16xlarge 640 1024*
DetectionTransformer-ResNet 50 COCO-2017 ml.g4dn.2xlarge 2 2
ml.g5.2xlarge 3 6
ml.p3.2xlarge 2 4
ml.p3.16xlarge 8 32
MaskrCNN-ResNet 50-FPN COCO-2017 ml.g4dn.2xlarge 4 4
ml.g5.2xlarge 6 8
ml.p3.2xlarge 4 6

* 标有星号 (*) 的批次大小表示 SageMaker 训练编译器开发团队测试的最大批次大小。对于标记的单元格,该实例可能能够容纳比所示更大的批次大小。

使用Sequence_Len=512自动混合精度 (AMP) 进行了测试。

单节点单 GPU
模型 数据集 实例类型 实例计数 原生框架的Batch 大小 训练编译器的Batch 大小
albert-base-v2 wkkkt-2 ml.g4dn.2xlarge 1 14 28
ml.g5.2xlarge 1 18 40
ml.p3.2xlarge 1 14 32
bert-base-cased wkkkt-2 ml.g4dn.2xlarge 1 12 24
ml.g5.2xlarge 1 28 44
ml.p3.2xlarge 1 16 20
卡门伯特基础 wkkkt-2 ml.g4dn.2xlarge 1 16 28
ml.g5.2xlarge 1 24 40
ml.p3.2xlarge 1 16 24
distilbert-base-uncased wkkkt-2 ml.g4dn.2xlarge 1 28 52
ml.g5.2xlarge 1 40 76
ml.p3.2xlarge 1 32 48
wikitext-103-v1 ml.p4d.24xlarge 4 82 160
distilgpt2 wkkkt-2 ml.g4dn.2xlarge 1 6 18
ml.g5.2xlarge 1 12 28
ml.p3.2xlarge 1 6 16
Distilrobert的基本映像 wkkkt-2 ml.g4dn.2xlarge 1 20 40
ml.g5.2xlarge 1 28 56
ml.p3.2xlarge 1 24 40
eeutherai/gpt-neo-125m wkkkt-2 ml.g4dn.2xlarge 1 4 8
ml.g5.2xlarge 1 6 14
ml.p3.2xlarge 1 4 10
gpt2 wkkkt-2 ml.g4dn.2xlarge 1 4 8
ml.g5.2xlarge 1 6 16
ml.p3.2xlarge 1 4 10
wikitext-103-v1 ml.p4d.24xlarge 4 13 25
罗伯塔Base wkkkt-2 ml.g4dn.2xlarge 1 12 20
ml.g5.2xlarge 1 24 36
ml.p3.2xlarge 1 12 20
wikitext-103-v1 ml.p4d.24xlarge 4 36 64
xlnet-base-cased wkkkt-2 ml.g4dn.2xlarge 1 2 6
ml.g5.2xlarge 1 2 10
ml.p3.2xlarge 1 2 8
bert-base-uncased wikitext-103-v1 ml.p4d.24xlarge 2 32 64
4 32 64
8 32 64
16 32 64
罗伯塔-lase wikitext-103-v1 ml.p4d.24xlarge 4 16 24
微软/deberta-v3 base wikitext-103-v1 ml.p4d.24xlarge 16 9 23

使用Sequence_Len=512自动混合精度 (AMP) 进行了测试。

单节点单 GPU
模型 实例类型 原生框架的Batch 大小 训练编译器的Batch 大小
albert-base-v2 ml.p3.2xlarge 14 28
ml.g4dn.2xlarge 14 24
bert-base-cased ml.p3.2xlarge 16 24
ml.g4dn.2xlarge 12 24
bert-base-uncased ml.p3.2xlarge 16 24
ml.g4dn.2xlarge 12 28
卡门伯特基础 ml.p3.2xlarge 12 24
ml.g4dn.2xlarge 12 28
distilbert-base-uncased ml.p3.2xlarge 28 48
ml.g4dn.2xlarge 24 52
distilgpt2 ml.p3.2xlarge 6 12
ml.g4dn.2xlarge 6 14
Distilrobert的基本映像 ml.p3.2xlarge 20 40
ml.g4dn.2xlarge 12 40
eeutherai/gpt-neo-125m ml.p3.2xlarge 2 10
ml.g4dn.2xlarge 2 8
facebook/bart-base ml.p3.2xlarge 2 6
ml.g4dn.2xlarge 2 6
gpt2 ml.p3.2xlarge 4 8
ml.g4dn.2xlarge 2 8
罗伯塔Base ml.p3.2xlarge 12 20
ml.g4dn.2xlarge 12 20
xlnet-base-cased ml.p3.2xlarge 2 8
ml.g4dn.2xlarge 4 6

使用Sequence_Len=512自动混合精度 (AMP) 进行了测试。

单节点单 GPU
模型 实例类型 原生的Batch 大小 训练编译器的Batch 大小
albert-base-v2 ml.p3.2xlarge 12 32
bert-base-cased ml.p3.2xlarge 14 24
bert-base-chinese ml.p3.2xlarge 16 24
bert-base-multilingual-cased ml.p3.2xlarge 4 16
bert-base-multilingual-uncased ml.p3.2xlarge 8 16
bert-base-uncased ml.p3.2xlarge 12 24
cl-tohoku/bert-base-japanese-whole-word-masking ml.p3.2xlarge 12 24
cl-tohoku/bert-base-japanese ml.p3.2xlarge 12 24
distilbert-base-uncased ml.p3.2xlarge 28 32
distilbert-base-uncased-finetuned-sst-2-英语 ml.p3.2xlarge 28 32
distilgpt2 ml.p3.2xlarge 16 32
facebook/bart-base ml.p3.2xlarge 4 8
gpt2 ml.p3.2xlarge 6 20
nreimers/minilmv2-L6-H384-Distilled-from-roberta-Large ml.p3.2xlarge 20 32
罗伯塔Base ml.p3.2xlarge 12 20
单节点多 GPU
模型 实例类型 原生的Batch 大小 训练编译器的Batch 大小
bert-base-chinese ml.p3.8xlarge 16 26
bert-base-multilingual-cased ml.p3.8xlarge 6 16
bert-base-multilingual-uncased ml.p3.8xlarge 6 16
bert-base-uncased ml.p3.8xlarge 14 24
distilbert-base-uncased ml.p3.8xlarge 14 32
distilgpt2 ml.p3.8xlarge 6 32
facebook/bart-base ml.p3.8xlarge 8 16
gpt2 ml.p3.8xlarge 8 20
罗伯塔Base ml.p3.8xlarge 12 20

使用Sequence_Len=128自动混合精度 (AMP) 进行了测试。

模型 实例类型 原生框架的Batch 大小 训练编译器的Batch 大小
albert-base-v2 ml.g4dn.16xlarge 136 208
albert-base-v2 ml.g5.4xlarge 219 312
albert-base-v2 ml.p3.2xlarge 152 208
albert-base-v2 ml.p3.8xlarge 152 192
bert-base-uncased ml.g4dn.16xlarge 120 101
bert-base-uncased ml.g5.4xlarge 184 160
bert-base-uncased ml.p3.2xlarge 128 108
bert-large-uncased ml.g4dn.16xlarge 37 28
bert-large-uncased ml.g5.4xlarge 64 55
bert-large-uncased ml.p3.2xlarge 40 32
卡门伯特基础 ml.g4dn.16xlarge 96 100
卡门伯特基础 ml.g5.4xlarge 190 160
卡门伯特基础 ml.p3.2xlarge 129 108
卡门伯特基础 ml.p3.8xlarge 128 104
distilbert-base-uncased ml.g4dn.16xlarge 210 160
distilbert-base-uncased ml.g5.4xlarge 327 288
distilbert-base-uncased ml.p3.2xlarge 224 196
distilbert-base-uncased ml.p3.8xlarge 192 182
谷歌_electra-small-discriminator ml.g4dn.16xlarge 336 288
谷歌_electra-small-discriminator ml.g5.4xlarge 504 384
谷歌_electra-small-discriminator ml.p3.2xlarge 352 323
gpt2 ml.g4dn.16xlarge 89 64
gpt2 ml.g5.4xlarge 140 146
gpt2 ml.p3.2xlarge 94 96
gpt2 ml.p3.8xlarge 96 88
jplu_tf-xlm-roberta-base ml.g4dn.16xlarge 52 16
jplu_tf-xlm-roberta-base ml.g5.4xlarge 64 44
微软_mpnet-base ml.g4dn.16xlarge 120 100
微软_mpnet-base ml.g5.4xlarge 192 160
微软_mpnet-base ml.p3.2xlarge 128 104
微软_mpnet-base ml.p3.8xlarge 130 92
罗伯塔Base ml.g4dn.16xlarge 108 64
罗伯塔Base ml.g5.4xlarge 176 142
罗伯塔Base ml.p3.2xlarge 118 100
罗伯塔Base ml.p3.8xlarge 112 88

使用Sequence_Len=128自动混合精度 (AMP) 进行了测试。

单节点单 GPU
模型 实例类型 原生的Batch 大小 训练编译器的Batch 大小
albert-base-v2 ml.p3.2xlarge 128 128
Base ml.p3.2xlarge 12 64
Basg ml.p3.2xlarge 4 28
bert-base-cased ml.p3.2xlarge 16 128
bert-base-chinese ml.p3.2xlarge 16 128
bert-base-multilingual-cased ml.p3.2xlarge 12 64
bert-base-multilingual-uncased ml.p3.2xlarge 16 96
bert-base-uncased ml.p3.2xlarge 16 96
bert-large-uncased ml.p3.2xlarge 4 24
cl-tohoku/bert-base-japanese ml.p3.2xlarge 16 128
cl-tohoku/bert-base-japanese-whole-word-masking ml.p3.2xlarge 16 128
distilbert-base-sst2 ml.p3.2xlarge 32 128
distilbert-base-uncased ml.p3.2xlarge 32 128
distilgpt2 ml.p3.2xlarge 32 128
gpt2 ml.p3.2xlarge 12 64
gpt2-large ml.p3.2xlarge 2 24
jplu/tf-xlm-roberta-base ml.p3.2xlarge 12 32
罗伯塔Base ml.p3.2xlarge 4 64
罗伯塔-lase ml.p3.2xlarge 4 64
t5-base ml.p3.2xlarge 64 64
t5-small ml.p3.2xlarge 128 128