TensorFlow with Horovod - 深度学习 AMI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

TensorFlow with Horovod

本教程介绍如何在 Amazon Deep Learning AMI (DLAMI) with Conda 上激活 TensorFlow with Horovod。Horovod 已为 TensorFlow 预安装在 Conda 环境中。推荐使用 Python3 环境。

注意

仅支持 P3.*、P2.* 和 G3.* 实例类型。

要激活 TensorFlow 并在 DLAMI with Conda 上测试 Horovod

  1. 利用 Conda 打开一个 Amazon Elastic Compute Cloud (Amazon EC2) 实例。有关 DMAMI 入门帮助,请参阅如何开始使用 DLAMI.

  2. (推荐) 对于使用 CUDA 11 的 Python 3 上的 TensorFlow 1.15 上的 Horovod,请运行以下命令:

    $ source activate tensorflow_p37
  3. 启动 iPython 终端:

    (tensorflow_p37)$ ipython
  4. 测试导入 TensorFlow with Horovod 以验证其是否运行正常:

    import horovod.tensorflow as hvd hvd.init()

    以下内容可能显示在您的屏幕上(您可能会忽略任何警告消息)。

    -------------------------------------------------------------------------- [[55425,1],0]: A high-performance Open MPI point-to-point messaging module was unable to find any relevant network interfaces: Module: OpenFabrics (openib) Host: ip-172-31-72-4 Another transport will be used instead, although this may result in lower performance. --------------------------------------------------------------------------

更多信息