运行 GPU 作业 - Amazon Batch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

运行 GPU 作业

GPU 作业可帮助您运行使用实例的作业 GPUs。

支持以下 EC2 基于 Amazon GPU 的实例类型。有关更多信息,请参阅亚马逊 EC2 G3 实例、亚马逊 G EC2 4 实例、亚马逊 G EC2 5 实例、亚马逊 G6 实例、亚马逊 P EC2 2 实例、亚马逊 EC2 P3 EC2 实例、亚马逊 P EC2 4d 实例、亚马逊 P5 实例、亚马逊 P EC2 6 实例、亚马逊 Trn1 实例、亚马逊 EC2 Trn2 实例、亚马逊 Trn2 实例亚马逊 EC2 EC2 EC2 Inf1 实例亚马逊 EC2 Inf2 实例亚马逊 EC2 Dl1 实例亚马 EC2 逊 Dl2 实例。

实例类型

GPUs

GPU 内存

v CPUs

内存

网络带宽

g3s.xlarge

1

8 GiB

4

30.5 GiB

10 Gbps

g3.4xlarge

1

8 GiB

16

122 GiB

最高 10 Gbps

g3.8xlarge

2

16 GiB

32

244 GiB

10 Gbps

g3.16xlarge

4

32 GiB

64

488 GiB

25 Gbps

g4dn.xlarge

1

16 GiB

4

16 GiB

最高 25 Gbps

g4dn.2xlarge

1

16 GiB

8

32 GiB

最高 25 Gbps

g4dn.4xlarge

1

16 GiB

16

64 GiB

最高 25 Gbps

g4dn.8xlarge

1

16 GiB

32

128 GiB

50 Gbps

g4dn.12xlarge

4

64 GiB

48

192 GiB

50 Gbps

g4dn.16xlarge

1

16 GiB

64

256 GiB

50 Gbps

g5.xlarge

1

24 GiB

4

16 GiB

最高 10 Gbps

g5.2xlarge

1

24 GiB

8

32 GiB

最高 10 Gbps

g5.4xlarge

1

24 GiB

16

64 GiB

最高 25 Gbps

g5.8xlarge

1

24 GiB

32

128 GiB

25 Gbps

g5.16xlarge

1

24 GiB

64

256 GiB

25 Gbps

g5.12xlarge

4

96 GiB

48

192 GiB

40Gbps

g5.24xlarge

4

96 GiB

96

384 GiB

50 Gbps

g5.48xlarge

8

192 GiB

192

768 GiB

100 Gbps

g5g.xlarge

1

16 GB

4

8 GB

最高 10 Gbps

g5g.2xlarge

1

16 GB

8

16 GB

最高 10 Gbps

g5g.4xlarge

1

16 GB

16

32 GB

最高 10 Gbps

g5g.8xlarge

1

16 GB

32

64 GB

12 Gbps

g5g.16xlarge

2

32 GB

64

128 GB

25 Gbps

g5g.metal

2

32 GB

64

128 GB

25 Gbps

g6.xlarge

1

24 GiB

4

16 GiB

最高 10 Gbps

g6.2xlarge

1

24 GiB

8

32 GiB

最高 10 Gbps

g6.4xlarge

1

24 GiB

16

64 GiB

最高 25 Gbps

g6.8xlarge

1

24 GiB

32

128 GiB

25 Gbps

g6.16xlarge

1

24 GiB

64

256 GiB

25 Gbps

g6.12xlarge

4

96 GiB

48

192 GiB

40Gbps

g6.24xlarge

4

96 GiB

96

384 GiB

50 Gbps

g6.48xlarge

8

192 GiB

192

768 GiB

100 Gbps

g6e.xlarge

1

48 GB

4

32 GB

高达 20 Gbps

g6e.2xlarge

1

48 GB

8

64 GB

高达 20 Gbps

g6e.4xlarge

1

48 GB

16

128 GB

20 Gbps

g6e.8xlarge

1

48 GB

32

256GB

25 Gbps

g6e.16xlarge

1

48 GB

64

512GB

35 Gbps

g6e.12xlarge

4

192 GB

48

384 GB

100 Gbps

g6e.24xlarge

4

192 GB

96

768 GB

200 Gbps

g6e.48xlarge

8

384 GB

192

1536 GB

400 Gbps

gr6.4xlarge

1

24 GB

16

128 GB

最高 25 Gbps

gr6.8xlarge

1

24 GB

32

256GB

25 Gbps

p2.xlarge

1

12 GiB

4

61 GiB

p2.8xlarge

8

96 GiB

32

488 GiB

10 Gbps

p2.16xlarge

16

192 GiB

64

732 GiB

20 Gbps

p3.2xlarge

1

16 GiB

8

61 GiB

最高 10 Gbps

p3.8xlarge

4

64 GiB

32

244 GiB

10 Gbps

p3.16xlarge

8

128 GiB

64

488 GiB

25 Gbps

p3dn.24xlarge

8

256 GiB

96

768 GiB

100 Gbps

p4d.24xlarge

8

320GB

96

1152 GB

400 Gbps

p4de.24xlarge

8

640GB

96

1152 GB

400 Gbps

p5.48xlarge

8

640 GiB

192

2 TiB

3200 Gbps

p5e.48xlarge

8

1128 GB

192

2 TB

3200 Gbps

p5en.48xlarge

8

1128 GB

192

2 TB

3200 Gbps

p6-b200.48xlarge

8

1440 GB

192

2 TB

100 Gbps

trn1.2xlarge

1

32 GB

8

32 GB

最高 12.5Gbps

trn1.32xlarge

16

512GB

128

512GB

800 Gbps

trn1n.32xlarge

16

512GB

128

512GB

1600 Gbps

trn2.48xlarge

16

1.5 TB

192

2 TB

3.2 Tbps

inf1.xlarge

1

8 GB

4

8 GB

最高 25 Gbps

inf1.2xlarge

1

8 GB

8

16 GB

最高 25 Gbps

inf1.6xlarge

4

32 GB

24

48 GB

25 Gbps

inf1.24xlarge

16

128 GB

96

192 GB

100 Gbps

inf2.xlarge

1

32 GB

4

16 GB

最高 15 Gbps

inf2.8xlarge

1

32 GB

32

128 GB

最高 25 Gbps

inf2.24xlarge

6

192 GB

96

384 GB

50 Gbps

inf2.48xlarge

12

384 GB

192

768 GB

100 Gbps

dl1.24xlarge

8

256GB

96

768 GB

400 Gbps

dl2q.24xlarge

8

128 GB

96

768 GB

100 Gbps

注意

对于 GPU 任务, Amazon Batch 仅支持采用 NVIDIA 的实例类型 GPUs。例如,该G4ad系列不支持 GPU 调度。您仍然可以在G4ad上使用, Amazon Batch 方法是在任务定义中仅定义 vCPU 和内存要求,然后通过使用亚马逊 ECS 或 Amazon EKS 计算优化的 AMI 在亚马逊 EC2 启动模板中进行自定义来 GPUs 直接访问主机,或者使用自定义 AMD 的 AM GPUs I 来访问主机。

自定义 AMIs 提供给的 GPU 任务支持使用 ARM64 架构的实例类型, Amazon Batch 或者 GPUs 通过自定义代码和配置访问的 Amazon EC2 用户数据。例如,G5g实例系列。

任务定义的 resource Requirements 参数指定 GPUs 要固定到容器的数量。在作业持续时间内,在该实例上运行的任何其他作业都 GPUs 无法使用此数字。计算环境中运行 GPU 任务的所有实例类型都必须来自p3p4p5p6g3g3sg4g5、或g6实例系列。如果不这么做,GPU 作业可能会停滞于 RUNNABLE 状态。

不使用的作业 GPUs 可以在 GPU 实例上运行。但是,在 GPU 实例上运行它们的成本可能高于在类似的非 GPU 实例上运行的成本。根据具体的 vCPU、内存和所需时间,这些非 GPU 作业可能会阻止 GPU 作业运行。