将 GPU 与 Amazon ECS 托管实例结合使用 - Amazon Elastic Container Service
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

将 GPU 与 Amazon ECS 托管实例结合使用

Amazon ECS 托管实例通过以下 Amazon EC2 实例类型对机器学习、高性能计算和视频处理等工作负载支持 GPU 加速计算。有关 Amazon ECS 托管实例支持的实例类型的更多信息,请参阅Amazon ECS 托管实例实例类型

下面是 Amazon ECS 托管实例上支持的部分基于 GPU 的实例类型:

  • g4dn:由 NVIDIA T4 GPUs 提供支持,适用于机器学习推理、计算机视觉和图形密集型应用程序。

  • g5:由 NVIDIA A10G GPUs 提供支持,为图形密集型应用程序和机器学习工作负载提供更高性能。

  • p3:由 NVIDIA V100 GPUs 提供支持,专为高性能计算和深度学习训练而设计。

  • p4d:由 NVIDIA A100 GPUs 提供支持,为机器学习训练和高性能计算提供最高性能。

当您将支持 GPU 的实例类型与 Amazon ECS 托管实例一起使用时,NVIDIA 驱动程序和 CUDA 工具包已预先安装在实例上,从而更轻松地运行 GPU 加速的工作负载。

选择支持 GPU 的实例

要为您的 Amazon ECS 托管实例工作负载选择选择 GPU 的实例类型,请使用容量提供程序的启动模板中的 instanceRequirements 对象。以下代码段展示了可用于选择支持 GPU 的实例的属性。

{ "instanceRequirements": { "acceleratorTypes": "gpu", "acceleratorCount": 1, "acceleratorManufacturers": ["nvidia"] } }

以下代码段展示了可用于在启动模板中指定支持 GPU 的实例类型的属性。

{ "instanceRequirements": { "allowedInstanceTypes": ["g4dn.xlarge", "p4de.24xlarge"] } }

支持 GPU 的容器映像

要在容器中使用 GPU,您需要使用包含必要 GPU 库和工具的容器映像。NVIDIA 提供了一些预构建的容器映像,您可以将其用作 GPU 工作负载的基础,包括:

  • nvidia:cuda:包含用于 GPU 计算的 CUDA 工具包的基础映像。

  • tensorflow/tensorflow:latest-gpu:支持 GPU 的 TensorFlow。

  • pytorch/pytorch:latest-cuda:支持 GPU 的 PyTorch。

有关涉及使用 GPU 的 Amazon ECS 托管实例的 Amazon ECS 任务定义示例,请参阅在 Amazon ECS 任务定义中指定 GPU 数