训练 - Amazon 深度学习容器
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

训练

本节介绍如何EC2使用 PyTorch 和在 Dee Amazon p Learning Containers for Amazon 上运行训练 TensorFlow。

PyTorch训练

要 PyTorch 从您的 Amazon EC2 实例开始训练,请使用以下命令运行容器。您必须nvidia-docker使用GPU图片。

  • 对于 CPU

    $ docker run -it <CPU training container>
  • 对于 GPU

    $ nvidia-docker run -it <GPU training container>
  • 如果你有 docker-ce 版本 19.03 或更高版本,你可以在 docker 中使用--gpus 标志:

    $ docker run -it --gpus <GPU training container>

运行以下命令开始训练。

  • 对于 CPU

    $ git clone https://github.com/pytorch/examples.git $ python examples/mnist/main.py --no-cuda
  • 对于 GPU

    $ git clone https://github.com/pytorch/examples.git $ python examples/mnist/main.py

PyTorch 使用 NVIDIA Ape GPU x 进行分布式训练

NVIDIAApex 是一款具有用于混合精度和分布式训练的实用程序的 PyTorch 扩展。有关Apex提供的实用程序的更多信息,请访问A NVIDIApex网站。Apex 目前由以下系列的亚马逊EC2实例支持:

要开始使用 NVIDIA Apex 进行分布式训练,请在GPU训练容器的终端中运行以下命令。此示例要求您的 Amazon EC2 实例GPUs上至少有两个,才能运行并行分布式训练。

$ git clone https://github.com/NVIDIA/apex.git && cd apex $ python -m torch.distributed.launch --nproc_per_node=2 examples/simple/distributed/distributed_data_parallel.py

TensorFlow训练

登录 Amazon EC2 实例后,您可以使用以下命令运行 TensorFlow TensorFlow 2 个容器。您必须nvidia-docker使用GPU图片。

  • 对于CPU基于基础的训练,请运行以下命令。

    $ docker run -it <CPU training container>
  • 对于GPU基于基础的训练,请运行以下命令。

    $ nvidia-docker run -it <GPU training container>

上一命令以交互模式运行容器并在容器内提供一个 shell 提示符。然后,您可以运行以下命令进行导入 TensorFlow。

$ python
>> import tensorflow

按 Ctrl+D 返回到 bash 提示符。运行以下命令以开始训练:

git clone https://github.com/fchollet/keras.git
$ cd keras
$ python examples/mnist_cnn.py

后续步骤

要在亚马逊上EC2使用 Deep Learning Cont PyTorch ainers 学习推理,请参阅PyTorch推断