Amazon SageMaker 训练编译器发行说明 - 亚马逊 SageMaker AI
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon SageMaker 训练编译器发行说明

重要

Amazon Web Services (Amazon) 宣布, SageMaker 训练编译器将没有新版本或新版本。你可以继续通过现有的 Dee Amazon p Learning Containers (DLCs) 使用 SageMaker SageMaker 训练编译器进行训练。值得注意的是,根据Amazon 深度学习容器(Deep Learning Containers Framework Support)政策 Amazon,虽然现有内容 DLCs 仍然可以访问,但它们将不再收到来自的补丁或更新。

请参阅以下发行说明,以跟踪 Amazon Training Compil SageMaker er 的最新更新。

SageMaker 训练编译器发行说明:2023 年 2 月 13 日

通用更新
  • 增加了对 PyTorch v1.13.1 的支持

错误修复
  • 修复了 GPU 上的竞争条件问题,该问题导致某些模型(例如视觉转换器 (ViT) 模型)中的 NAN 丢失。

其他更改
  • SageMaker Training Compiler 让 PyTorch /XLA 自动覆盖优化器(例如 SGD、Adam、AdamW)torch.optimtransformers.optimization其中的无同步版本(例如、、),从而提高性能。torch_xla.amp.syncfree torch_xla.amp.syncfree.SGD torch_xla.amp.syncfree.Adam torch_xla.amp.syncfree.AdamW您无需更改训练脚本中定义优化器的代码行。

迁移到 Amazon 深度学习容器

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:

SageMaker 训练编译器发行说明:2023 年 1 月 9 日

重大更改

  • tf.keras.optimizers.Optimizer指向 TensorFlow 2.11.0 及更高版本中的新优化器。旧版优化器已移至 tf.keras.optimizers.legacy。在执行以下操作时,您可能会因重大更改而遇到作业失败。

    • 从旧版优化器加载检查点。我们建议您进行切换以使用旧版优化器。

    • 使用 TensorFlow v1。如果您需要继续使用 TensorFlow TensorFlow v1,我们建议您迁移到 v2,或者切换到旧版优化器。

    有关优化器更改的重大更改的更多详细列表,请参阅存储库中的官方 TensorFlow v2.11.0 发行说明。 TensorFlow GitHub

迁移到 Amazon 深度学习容器

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:

SageMaker 训练编译器发行说明:2022 年 12 月 8 日

错误修复

  • 修复了从 PyTorch v1.12 开始的 PyTorch 训练作业的种子,以确保不同进程之间的模型初始化没有差异。另请参阅 “PyTorch可重复性”。

  • 修复了导致 G4dN 和 G5 实例上的 PyTorch 分布式训练作业不默认通过通信的问题。PCIe

已知问题

  • APIs 在 Hugging Face 的视觉转换器中不当使用 PyTorch /XLA 可能会导致收敛问题。

其他更改

迁移到 Amazon 深度学习容器

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:

SageMaker 训练编译器发行说明:2022 年 10 月 4 日

通用更新
  • 增加了对 TensorFlow v2.10.0 的支持。

其他更改
  • 在框架测试中添加了使用《变形金刚》库的 Hugging Face NLP 模型 TensorFlow。要查找经过测试的 Transformer 模型,请参阅经过测试的模型

迁移到 Amazon 深度学习容器

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:

SageMaker 训练编译器发行说明:2022 年 9 月 1 日

通用更新
  • 在 1.11.0 版本中增加了对 Hugging Face Transformers v4.21.1 PyTorch 的支持。

改进
迁移到 Amazon 深度学习容器

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:

SageMaker 训练编译器发行说明:2022 年 6 月 14 日

新功能
迁移到 Amazon 深度学习容器

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:

SageMaker 训练编译器发行说明:2022 年 4 月 26 日

改进

SageMaker 训练编译器发行说明:2022 年 4 月 12 日

通用更新
  • 在 v2.6.3 和 1.10.2 版本中增加了对 Hugging Face Transformers v4.17.0 TensorFlow 的支持。 PyTorch

SageMaker 训练编译器发行说明:2022 年 2 月 21 日

改进
  • 已完成基准测试并确认 ml.g4dn 实例类型的训练速度已加快。要查找已测试的 ml 实例的完整列表,请参阅 支持的实例类型

SageMaker 训练编译器发行说明:2021 年 12 月 1 日

新功能
  • 在 re Amazon : Invent 2021 上推出了亚马逊 SageMaker 训练编译器。

迁移到 Amazon 深度学习容器