Amazon SageMaker 调试程序 的注意事项 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 调试程序 的注意事项

使用 Amazon SageMaker 调试程序 时,请考虑以下事项。

分布式训练的注意事项

  • Horovod 支持

    • 对于调试,– 不支持对 Keras 进行 Horovod 分布式训练。调试程序

    • 对于分析,– 调试程序 不支持适用于 Keras 和 MXNet 的 Horovod 分布式训练。

  • Parameter Server 支持 不支持基于参数的分布式训练(基于服务器)。–

监控和分析注意事项

  • 对于 AWS TensorFlow,无法使用 local_path 类的默认 FrameworkProfile 设置收集数据加载程序指标。路径必须手动配置,以 "/" 结尾。 例如:

    FrameworkProfile(local_path="/opt/ml/output/profiler/")
  • 对于 AWS TensorFlow,训练作业运行时无法更新数据加载程序分析配置。

  • 对于 AWS TensorFlow,当您将分析工具和笔记本示例与 NoneType 2.3 训练作业以及详细分析选项结合使用时,可能会出现 TensorFlow 错误。

  • 只有 Keras API 支持 Python 分析和详细分析。

  • 要访问 TensorFlow 和 PyTorch 的深度分析功能,目前您需要使用 CUDA 11 指定最新的 AWS 深度学习容器映像。例如,您必须在 TensorFlow 和 PyTorch 评估程序中指定特定映像 URI,如下所示:

    • 对于 TensorFlow

      image_uri = f"763104351884.dkr.ecr.{region}.amazonaws.com/tensorflow-training:2.3.1-gpu-py37-cu110-ubuntu18.04"
    • 对于 PyTorch

      image_uri = f"763104351884.dkr.ecr.{region}.amazonaws.com/pytorch-training:1.6.0-gpu-py36-cu110-ubuntu18.04"