在亚马逊中使用 GPU 分区 SageMaker HyperPod - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在亚马逊中使用 GPU 分区 SageMaker HyperPod

集群管理员可以选择如何最大限度地提高整个组织的 GPU 利用率。您可以使用 NVIDIA 多实例 GPU (MIG) 技术启用 GPU 分区,将 GPU 资源分成更小的隔离实例,从而提高资源利用率。此功能使您能够在单个 GPU 上同时运行多个规模较小的任务,而不是将整个硬件专用于单个通常未充分利用的任务。这消除了计算能力和内存的浪费。

采用 MIG 技术的 GPU 分区支持 GPUs 并允许您将单个支持的 GPU 分区为多达七个独立的 GPU 分区。每个 GPU 分区都有专用的内存、缓存和计算资源,可提供可预测的隔离。

优势

  • 提高 GPU 利用率- GPUs 根据计算和内存要求进行分区,最大限度地提高计算效率

  • 任务隔离-每个 GPU 分区使用专用的内存、缓存和计算资源独立运行

  • 任务灵活性-Support 支持在单个物理 GPU 上混合执行多种任务,全部并行运行

  • 灵活的设置管理-支持使用 Kubernetes 命令行客户端的 Do-it-yourself (DIY) Kubernetes 配置,以及带有自定义标签的托管解决方案kubectl,可轻松配置和应用与 GPU 分区关联的标签

支持的实例类型

以下 HyperPod 实例类型支持采用 MIG 技术的 GPU 分区:

A100 GPU 实例——实例类型/p 4/ https://aws.amazon.com/ec2/

  • ml.p4d.24xlarge-8 NVIDIA A100(每个 G PU 80GB) GPUs HBM2e

  • ml.p4de.24xlarge-8 NVIDIA A100(每个 GPU 80G B) GPUs HBM2e

H100 GPU 实例——实例类型/p 5/ https://aws.amazon.com/ec2/

  • ml.p5.48xlarge-8 NVIDIA H100(每个 GPU 80GB) GPUs HBM3

H200 GPU 实例——实例类型/p 5/ https://aws.amazon.com/ec2/

  • ml.p5e.48xlarge-8 NVIDIA H200(每个 G PU 141GB) GPUs HBM3e

  • ml.p5en.48xlarge-8 NVIDIA H200(每个 GPU 141GB) GPUs HBM3e

B200 GPU 实例—— https://aws.amazon.com/ec2/ 实例类型/ p6/

  • ml.p6b.48xlarge-8 NVID IA B200 GPUs

GPU 分区

NVIDIA MIG 配置文件定义了 GPUs 分区的方式。每个配置文件都指定了每个 MIG 实例的计算和内存分配。以下是与每种 GPU 类型关联的 MIG 配置文件:

A100 GPU (ml.p4d.24xlarge)

配置文件 内存(GB) 每 GPU 的实例数 每 ml.p4d.24xlarge 的总数

1g.5gb

5

7

56

2g.10gb

10

3

24

3g.20gb

20

2

16

4g.20gb

20

1

8

7g.40gb

40

1

8

H100 GPU (ml.p5.48xlarge)

配置文件 内存(GB) 每 GPU 的实例数 每个 ml.p5.48xlarge 的总数

1g.10gb

10

7

56

1g.20gb

20

4

32

2g.20gb

20

3

24

3g.40gb

40

2

16

4g.40gb

40

1

8

7g.80gb

80

1

8

H200 GPU(ml.p5e.48xlarge 和 ml.p5en.48xlarge)

配置文件 内存(GB) 每 GPU 的实例数 每 ml.p5en.48xlarge 的总数

1g.18gb

18

7

56

1g.35gb

35

4

32

2g.35gb

35

3

24

3g.71gb

71

2

16

4g.71gb

71

1

8

7g.141gb

141

1

8