Amazon SageMaker Training Compiler 发行说明 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon SageMaker Training Compiler 发行说明

请参阅以下发行说明,跟踪有关 Amazon SageMaker Training Compiler 的最新更新。

SageMaker Training Compiler 发行说明:2023 年 2 月 13 日

通用更新
  • 增加了对 PyTorch v1.13.1 的支持

错误修复
  • 修复了 GPU 上的竞争条件问题,该问题导致某些模型(例如视觉转换器 (ViT) 模型)中的 NAN 丢失。

其他更改
  • SageMaker Training Compiler 可让 PyTorch/XLA 自动将 torch.optimtransformers.optimization 中的优化器(例如 SGD、Adam、AdamW)替换为这些优化器在 torch_xla.amp.syncfree 中的 syncfree 版本(例如 torch_xla.amp.syncfree.SGDtorch_xla.amp.syncfree.Adamtorch_xla.amp.syncfree.AdamW),从而提高性能。您无需更改训练脚本中定义优化器的代码行。

迁移到 Amazon 深度学习容器

此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:

SageMaker Training Compiler 发行说明:2023 年 1 月 9 日

重大更改

  • tf.keras.optimizers.Optimizer 指向 TensorFlow 2.11.0 和更高版本中的新优化器。旧版优化器已移至 tf.keras.optimizers.legacy。在执行以下操作时,您可能会因重大更改而遇到作业失败。

    • 从旧版优化器加载检查点。我们建议您进行切换以使用旧版优化器。

    • 使用 TensorFlow v1。如果您需要继续使用 TensorFlow v1,我们建议您迁移到 TensorFlow v2 或切换到旧版优化器。

    有关自优化器发生更改后的重大更改的更详细列表,请参阅 TensorFlow GitHub 存储库中的 TensorFlow v2.11.0 正式发行说明

迁移到 Amazon 深度学习容器

此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:

SageMaker Training Compiler 发行说明:2022 年 12 月 8 日

错误修复

  • 修复了从 PyTorch v1.12 开始的 PyTorch 训练作业的种子,确保不同进程之间的模型初始化无差异。另请参阅 PyTorch 再现性

  • 修复了导致 G4dn 和 G5 实例上的 PyTorch 分布式训练作业不默认为通过 PCIe 进行通信的问题。

已知问题

  • 在 Hugging Face 的视觉转换器中不当地使用 PyTorch/XLA API 可能会导致收敛问题。

其他更改

迁移到 Amazon 深度学习容器

此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:

SageMaker Training Compiler 发行说明:2022 年 10 月 4 日

通用更新
  • 添加了对 TensorFlow v2.10.0 的支持。

其他更改
  • 在 TensorFlow 框架测试中添加了使用 Transformers 库的 Hugging Face NLP 模型。要查找经过测试的 Transformer 模型,请参阅经过测试的模型

迁移到 Amazon 深度学习容器

此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:

SageMaker Training Compiler 发行说明:2022 年 9 月 1 日

通用更新
  • 添加了对带 PyTorch v1.11.0 的 Hugging Face Transformers v4.21.1 的支持。

改进
迁移到 Amazon 深度学习容器

此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:

SageMaker Training Compiler 发行说明:2022 年 6 月 14 日

新功能
迁移到 Amazon 深度学习容器

此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:

SageMaker Training Compiler 发行说明:2022 年 4 月 26 日

改进

SageMaker Training Compiler 发行说明:2022 年 4 月 12 日

通用更新
  • 添加对带 TensorFlow v2.6.3 和 PyTorch v1.10.2 的 Hugging Face Transformers v4.17.0 的支持。

SageMaker Training Compiler 发行说明:2022 年 2 月 21 日

改进
  • 已完成基准测试并确认 ml.g4dn 实例类型的训练速度已加快。要查找已测试的 ml 实例的完整列表,请参阅 支持的实例类型

SageMaker Training Compiler 发行说明:2021 年 12 月 1 日

新功能
  • 已在 Amazon re:Invent 2021 上宣布推出 Amazon SageMaker Training Compiler。

迁移到 Amazon 深度学习容器