深度学习 AMI
开发人员指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

训练

本部分将指导您如何使用 MXNet 和 TensorFlow 在 EC2 的深度学习容器上运行训练。

有关 AWS Deep Learning Containers的完整列表,请参阅Deep Learning Containers映像

注意

MKL 用户:读取 AWS Deep Learning Containers MKL 建议以获得最佳训练或推理性能。

TensorFlow 训练

我们可以使用以下命令运行容器。请注意,您必须对 GPU 映像使用“nvidia-docker”。

  • 对于 CPU:

    $ docker run -it <cpu training container>
  • 对于 GPU:

    $ nvidia-docker run -it <gpu training container>

上一命令以交互模式运行容器并在容器内提供一个 shell 提示符。然后,您可以运行以下命令以导入 TensorFlow:

  • $ python
  • >> import tensorflow

按 CTRL+D 以返回到 bash 提示符。运行以下命令以开始训练:

  • git clone https://github.com/fchollet/keras.git
  • $ cd keras
  • $ python examples/mnist_cnn.py

您将看到训练已开始。

利用 MXNet 进行训练

要开始利用 MXNet 进行训练,请首先运行以下命令来运行容器:

  • 对于 CPU:

    $ docker run -it <cpu training container>
  • 对于 GPU:

    $ nvidia-docker run -it <gpu training container>

在容器的终端中,运行以下命令以开始训练:

  • 对于 CPU:

    $ git clone -b v1.4.1 https://github.com/apache/incubator-mxnet.git python incubator-mxnet/example/image-classification/train_mnist.py
  • 对于 GPU:

    $ git clone -b v1.4.1 https://github.com/apache/incubator-mxnet.git python incubator-mxnet/example/image-classification/train_mnist.py --gpus 0