将 GPU 与 Amazon ECS 托管实例结合使用
Amazon ECS 托管实例通过以下 Amazon EC2 实例类型对机器学习、高性能计算和视频处理等工作负载支持 GPU 加速计算。有关 Amazon ECS 托管实例支持的实例类型的更多信息,请参阅Amazon ECS 托管实例实例类型。
下面是 Amazon ECS 托管实例上支持的部分基于 GPU 的实例类型:
-
g4dn:由 NVIDIA T4 GPUs 提供支持,适用于机器学习推理、计算机视觉和图形密集型应用程序。 -
g5:由 NVIDIA A10G GPUs 提供支持,为图形密集型应用程序和机器学习工作负载提供更高性能。 -
p3:由 NVIDIA V100 GPUs 提供支持,专为高性能计算和深度学习训练而设计。 -
p4d:由 NVIDIA A100 GPUs 提供支持,为机器学习训练和高性能计算提供最高性能。
当您将支持 GPU 的实例类型与 Amazon ECS 托管实例一起使用时,NVIDIA 驱动程序和 CUDA 工具包已预先安装在实例上,从而更轻松地运行 GPU 加速的工作负载。
选择支持 GPU 的实例
要为您的 Amazon ECS 托管实例工作负载选择选择 GPU 的实例类型,请使用容量提供程序的启动模板中的 instanceRequirements 对象。以下代码段展示了可用于选择支持 GPU 的实例的属性。
{ "instanceRequirements": { "acceleratorTypes": "gpu", "acceleratorCount": 1, "acceleratorManufacturers": ["nvidia"] } }
以下代码段展示了可用于在启动模板中指定支持 GPU 的实例类型的属性。
{ "instanceRequirements": { "allowedInstanceTypes": ["g4dn.xlarge", "p4de.24xlarge"] } }
支持 GPU 的容器映像
要在容器中使用 GPU,您需要使用包含必要 GPU 库和工具的容器映像。NVIDIA 提供了一些预构建的容器映像,您可以将其用作 GPU 工作负载的基础,包括:
-
nvidia:cuda:包含用于 GPU 计算的 CUDA 工具包的基础映像。 -
tensorflow/tensorflow:latest-gpu:支持 GPU 的 TensorFlow。 -
pytorch/pytorch:latest-cuda:支持 GPU 的 PyTorch。
有关涉及使用 GPU 的 Amazon ECS 托管实例的 Amazon ECS 任务定义示例,请参阅在 Amazon ECS 任务定义中指定 GPU 数。