TensorFlow 2和Horovod - 深度学习 AMI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

TensorFlow 2和Horovod

本教程介绍如何激活 TensorFlow 2 和 Horovod 一起玩Amazon Deep Learning AMI(DLAMI) 和 Conda 在一起。Horovod 已预先安装在 Conda 环境中 TensorFlow 2. 推荐使用 Python3 环境。

注意

仅支持 P3.*、P2.* 和 G3.* 实例类型。

Active TensorFlow 2 然后和 Conda 一起在 DLAMI 上测试 Horovod

  1. 使用 Conda 打开 DLAMI 的Amazon Elastic (Amazon EC2) 实例。有关使用 DLAMI 的入门帮助,请参阅如何开始使用 DLAMI.

    • (建议)For TensorFlow 2 使用 Horovod 在 Python 3 上使用 CUDA 10,运行以下命令:

      $ source activate tensorflow2_p36
    • 对于 TensorFlow 2 使用 Horovod 在 Python 2 上使用 CUDA 10,运行以下命令:

      $ source activate tensorflow2_p27
  2. 启动 iPython 终端:

    (tensorflow2_p36)$ ipython
  3. 测试导入 TensorFlow 2 与 Horovod 一起验证它是否正常运行:

    import horovod.tensorflow as hvd hvd.init()

    如果没有收到任何输出,表示 Horovod 工作正常。以下内容可能显示在您的屏幕上(您可能会忽略任何警告消息)。

    -------------------------------------------------------------------------- [[55425,1],0]: A high-performance Open MPI point-to-point messaging module was unable to find any relevant network interfaces: Module: OpenFabrics (openib) Host: ip-172-31-72-4 Another transport will be used instead, although this may result in lower performance. --------------------------------------------------------------------------

更多信息

  • 有关教程,请参阅examples/horovodDLAMI 主目录中的文件夹。

  • 有关更多教程和示例,请参阅霍罗沃德 GitHub 项目.