本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
训练
本节介绍如何EC2使用 PyTorch 和在 Dee Amazon p Learning Containers for Amazon 上运行训练 TensorFlow。
PyTorch训练
要 PyTorch 从您的 Amazon EC2 实例开始训练,请使用以下命令运行容器。您必须nvidia-docker
使用GPU图片。
-
对于 CPU
$
docker run -it<CPU training container>
-
对于 GPU
$
nvidia-docker run -it<GPU training container>
-
如果你有 docker-ce 版本 19.03 或更高版本,你可以在 docker 中使用--gpus 标志:
$
docker run -it --gpus<GPU training container>
运行以下命令开始训练。
-
对于 CPU
$
git clone https://github.com/pytorch/examples.git$
python examples/mnist/main.py --no-cuda -
对于 GPU
$
git clone https://github.com/pytorch/examples.git$
python examples/mnist/main.py
PyTorch 使用 NVIDIA Ape GPU x 进行分布式训练
NVIDIAApex 是一款具有用于混合精度和分布式训练的实用程序的 PyTorch 扩展。有关Apex提供的实用程序的更多信息,请访问A NVIDIApex网站
要开始使用 NVIDIA Apex 进行分布式训练,请在GPU训练容器的终端中运行以下命令。此示例要求您的 Amazon EC2 实例GPUs上至少有两个,才能运行并行分布式训练。
$
git clone https://github.com/NVIDIA/apex.git && cd apex$
python -m torch.distributed.launch --nproc_per_node=2 examples/simple/distributed/distributed_data_parallel.py
TensorFlow训练
登录 Amazon EC2 实例后,您可以使用以下命令运行 TensorFlow TensorFlow 2 个容器。您必须nvidia-docker
使用GPU图片。
-
对于CPU基于基础的训练,请运行以下命令。
$
docker run -it<CPU training container>
-
对于GPU基于基础的训练,请运行以下命令。
$
nvidia-docker run -it<GPU training container>
上一命令以交互模式运行容器并在容器内提供一个 shell 提示符。然后,您可以运行以下命令进行导入 TensorFlow。
$
python
>> import tensorflow
按 Ctrl+D 返回到 bash 提示符。运行以下命令以开始训练:
git clone https://github.com/fchollet/keras.git
$
cd keras
$
python examples/mnist_cnn.py
后续步骤
要在亚马逊上EC2使用 Deep Learning Cont PyTorch ainers 学习推理,请参阅PyTorch推断 。