训练 - AWS 深度学习容器
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

训练

本部分指导您如何使用 MXNet、PyTorch、TensorFlow 和 TensorFlow 2 在适用于 Amazon EC2 的 AWS Deep Learning Containers 上运行训练。

有关 Deep Learning Containers的完整列表,请参阅Deep Learning Containers 映像

注意

MKL 用户:阅读AWS Deep Learning Containers Intel 数学内核库 (MKL) 建议以获得最佳训练或推理性能。

TensorFlow 训练

登录 Amazon EC2 实例后,您可以使用以下命令运行 TensorFlow 和 TensorFlow 2 容器。您必须将 nvidia-docker 用于 GPU 映像。

  • 对于基于 CPU 的训练,请运行以下操作。

    $ docker run -it <CPU training container>
  • 对于基于 GPU 的训练,请运行以下操作。

    $ nvidia-docker run -it <GPU training container>

上一命令以交互模式运行容器并在容器内提供一个 shell 提示符。然后,您可以运行以下命令以导入 TensorFlow。

$ python
>> import tensorflow

按 Ctrl+D 以返回到 bash 提示符。运行以下命令以开始训练:

git clone https://github.com/fchollet/keras.git
$ cd keras
$ python examples/mnist_cnn.py

后续步骤

要了解有关将 TensorFlow 与 Deep Learning Containers 结合使用在 Amazon EC2 上进行推理,请参阅TensorFlow 推理

MXNet 训练

要开始从您的 Amazon EC2 利用 MXNet 进行训练,请首先运行以下命令来运行容器:

  • 对于 CPU

    $ docker run -it <CPU training container>
  • 对于 GPU

    $ nvidia-docker run -it <GPU training container>

在容器的终端中,运行以下命令以开始训练。

  • 对于 CPU

    $ git clone -b v1.4.1 https://github.com/apache/incubator-mxnet.git python incubator-mxnet/example/image-classification/train_mnist.py
  • 对于 GPU

    $ git clone -b v1.4.1 https://github.com/apache/incubator-mxnet.git python incubator-mxnet/example/image-classification/train_mnist.py --gpus 0

后续步骤

要了解有关将 MXNet 与 Deep Learning Containers 结合使用在 Amazon EC2 上进行推理,请参阅MXNet 推理

PyTorch 训练

要开始从 Amazon EC2 利用 PyTorch 进行训练,请使用以下命令来运行容器。您必须将 nvidia-docker 用于 GPU 映像。

  • 对于 CPU

    $ docker run -it <CPU training container>
  • 对于 GPU

    $ nvidia-docker run -it <GPU training container>
  • 如果您的 docker-ce 版本为 19.03 或更高,则可以在 docker 中使用 --gpus 标志:

    $ docker run -it --gpus <GPU training container>

运行以下命令以开始训练。

  • 对于 CPU

    $ git clone https://github.com/pytorch/examples.git $ python examples/mnist/main.py --no-cuda
  • 对于 GPU

    $ git clone https://github.com/pytorch/examples.git $ python examples/mnist/main.py

后续步骤

要了解有关将 PyTorch 与 Deep Learning Containers 结合使用在 Amazon EC2 上进行推理,请参阅PyTorch 推理