TensorFlow 和 Horovod - 深度学习 AMI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

TensorFlow 和 Horovod

本教程展示了如何在( Amazon Deep Learning AMI DLAMI)上 TensorFlow 使用 Horovod 激活 Conda。Horovod 已预先安装在 Conda 环境中,用于。 TensorFlow推荐使用 Python3 环境。

注意

仅支持 P3.*、P2.* 和 G3.* 实例类型。

使用 Conda 在 DLAMI 上激活 TensorFlow 和测试 Horovod
  1. 打开带 Conda 的 DLAMI 的 Amazon Elastic Compute Cloud (Amazon EC2) 实例。有关 DLAMI 入门帮助,请参阅 如何开始使用 DLAMI

  2. (推荐)对于在带有 CUDA 11 的 Python 3 上使用 Horovod 的 TensorFlow 1.15,请运行以下命令:

    $ source activate tensorflow_p37
  3. 启动 iPython 终端:

    (tensorflow_p37)$ ipython
  4. TensorFlow 使用 Horovod 测试导入以验证其是否正常运行:

    import horovod.tensorflow as hvd hvd.init()

    以下内容可能显示在您的屏幕上(您可能会忽略任何警告消息)。

    -------------------------------------------------------------------------- [[55425,1],0]: A high-performance Open MPI point-to-point messaging module was unable to find any relevant network interfaces: Module: OpenFabrics (openib) Host: ip-172-31-72-4 Another transport will be used instead, although this may result in lower performance. --------------------------------------------------------------------------

更多信息