本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker Training Compiler 发行说明
重要
Amazon Web Services (Amazon) 宣布将不再发布新的 SageMaker Training Compiler 版本或版本。您可以通过 SageMaker Training 现有的 Amazon 深度学习容器 (DLC) 继续使用 SageMaker Training Compiler。值得注意的是,虽然现有的 DLC 仍然可以访问,但根据 Amazon 深度学习容器框架支持策略,它们将不再接收来自 Amazon 的补丁或更新。
请参阅以下发行说明,跟踪有关 Amazon SageMaker Training Compiler 的最新更新。
SageMaker Training Compiler 发行说明:2023 年 2 月 13 日
通用更新
增加了对 PyTorch v1.13.1 的支持
错误修复
-
修复了 GPU 上的竞争条件问题,该问题导致某些模型(例如视觉转换器 (ViT) 模型)中的 NAN 丢失。
其他更改
-
SageMaker Training Compiler 可让 PyTorch/XLA 自动将
torch.optim或transformers.optimization中的优化器(例如 SGD、Adam、AdamW)替换为这些优化器在torch_xla.amp.syncfree中的 syncfree 版本(例如torch_xla.amp.syncfree.SGD、torch_xla.amp.syncfree.Adam、torch_xla.amp.syncfree.AdamW),从而提高性能。您无需更改训练脚本中定义优化器的代码行。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2023 年 1 月 9 日
重大更改
-
tf.keras.optimizers.Optimizer指向 TensorFlow 2.11.0 和更高版本中的新优化器。旧版优化器已移至tf.keras.optimizers.legacy。在执行以下操作时,您可能会因重大更改而遇到作业失败。-
从旧版优化器加载检查点。我们建议您进行切换以使用旧版优化器。
-
使用 TensorFlow v1。如果您需要继续使用 TensorFlow v1,我们建议您迁移到 TensorFlow v2 或切换到旧版优化器。
有关自优化器发生更改后的重大更改的更详细列表,请参阅 TensorFlow GitHub 存储库中的 TensorFlow v2.11.0 正式发行说明
。 -
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
TensorFlow v2.11.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemaker要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 12 月 8 日
错误修复
-
修复了从 PyTorch v1.12 开始的 PyTorch 训练作业的种子,确保不同进程之间的模型初始化无差异。另请参阅 PyTorch 再现性
。 -
修复了导致 G4dn 和 G5 实例上的 PyTorch 分布式训练作业不默认为通过 PCIe
进行通信的问题。
已知问题
-
在 Hugging Face 的视觉转换器中不当地使用 PyTorch/XLA API 可能会导致收敛问题。
其他更改
-
在使用 Hugging Face Transformers
Trainer类时,请通过将optim参数设置为adamw_torch_xla来确保使用 SyncFree 优化器。有关更多信息,请参阅 使用 Hugging Face Transformers Trainer 类的大型语言模型。另请参阅 Hugging Face Transformers 文档中的优化器。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
PyTorch v1.12.0
763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 10 月 4 日
通用更新
-
添加了对 TensorFlow v2.10.0 的支持。
其他更改
-
在 TensorFlow 框架测试中添加了使用 Transformers 库的 Hugging Face NLP 模型。要查找经过测试的 Transformer 模型,请参阅经过测试的模型。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
TensorFlow v2.10.0
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemaker要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 9 月 1 日
通用更新
-
添加了对带 PyTorch v1.11.0 的 Hugging Face Transformers v4.21.1 的支持。
改进
-
实现了一种新的分布式训练启动器机制,以便为带 PyTorch 的 Hugging Face Transformer 模型激活 SageMaker Training Compiler。要了解更多信息,请参阅使用 SageMaker Training Compiler 运行 PyTorch 训练作业以进行分布式训练。
-
与 EFA 集成,可改善分布式训练中的集体通信。
-
添加了对用于 PyTorch 训练作业的 G5 实例的支持。有关更多信息,请参阅 支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
带 PyTorch v1.11.0 的 HuggingFace v4.21.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 6 月 14 日
新功能
-
添加了对 TensorFlow v2.9.1 的支持。SageMaker Training Compiler 完全支持编译 TensorFlow 模块 (
tf.*) 和 TensorFlow Keras 模块 (tf.keras.*)。 -
添加了对通过扩展适用于 TensorFlow 的 Amazon 深度学习容器创建的自定义容器的支持。有关更多信息,请参阅通过使用 SageMaker Python SDK 并扩展 SageMaker AI 框架深度学习容器来启用 SageMaker Training Compiler。
-
添加了对用于 TensorFlow 训练作业的 G5 实例的支持。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
TensorFlow 2.9.1
763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 4 月 26 日
改进
-
添加了对已发布 Amazon 深度学习容器
的所有 Amazon Web Services 区域(中国地区除外)的支持。
SageMaker Training Compiler 发行说明:2022 年 4 月 12 日
通用更新
-
添加对带 TensorFlow v2.6.3 和 PyTorch v1.10.2 的 Hugging Face Transformers v4.17.0 的支持。
SageMaker Training Compiler 发行说明:2022 年 2 月 21 日
改进
-
已完成基准测试并确认
ml.g4dn实例类型的训练速度已加快。要查找已测试的ml实例的完整列表,请参阅 支持的实例类型。
SageMaker Training Compiler 发行说明:2021 年 12 月 1 日
新功能
已在 Amazon re:Invent 2021 上宣布推出 Amazon SageMaker Training Compiler。
迁移到 Amazon 深度学习容器
Amazon SageMaker Training Compiler 已通过基准测试并迁移到 Amazon 深度学习容器。要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。