Amazon SageMaker Training Compiler 发行说明
请参阅以下发行说明,跟踪有关 Amazon SageMaker Training Compiler 的最新更新。
SageMaker Training Compiler 发行说明:2023 年 2 月 13 日
通用更新
增加了对 PyTorch v1.13.1 的支持
错误修复
-
修复了 GPU 上的竞争条件问题,该问题导致某些模型(例如视觉转换器 (ViT) 模型)中的 NAN 丢失。
其他更改
-
SageMaker Training Compiler 可让 PyTorch/XLA 自动将
torch.optim
或transformers.optimization
中的优化器(例如 SGD、Adam、AdamW)替换为这些优化器在torch_xla.amp.syncfree
中的 syncfree 版本(例如torch_xla.amp.syncfree.SGD
、torch_xla.amp.syncfree.Adam
、torch_xla.amp.syncfree.AdamW
),从而提高性能。您无需更改训练脚本中定义优化器的代码行。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker
要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2023 年 1 月 9 日
重大更改
-
tf.keras.optimizers.Optimizer
指向 TensorFlow 2.11.0 和更高版本中的新优化器。旧版优化器已移至tf.keras.optimizers.legacy
。在执行以下操作时,您可能会因重大更改而遇到作业失败。-
从旧版优化器加载检查点。我们建议您进行切换以使用旧版优化器。
-
使用 TensorFlow v1。如果您需要继续使用 TensorFlow v1,我们建议您迁移到 TensorFlow v2 或切换到旧版优化器。
有关自优化器发生更改后的重大更改的更详细列表,请参阅 TensorFlow GitHub 存储库中的 TensorFlow v2.11.0 正式发行说明
。 -
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
TensorFlow v2.11.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemaker要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 12 月 8 日
错误修复
-
修复了从 PyTorch v1.12 开始的 PyTorch 训练作业的种子,确保不同进程之间的模型初始化无差异。另请参阅 PyTorch 再现性
。 -
修复了导致 G4dn 和 G5 实例上的 PyTorch 分布式训练作业不默认为通过 PCIe
进行通信的问题。
已知问题
-
在 Hugging Face 的视觉转换器中不当地使用 PyTorch/XLA API 可能会导致收敛问题。
其他更改
-
在使用 Hugging Face Transformers
Trainer
类时,请通过将optim
参数设置为adamw_torch_xla
来确保使用 SyncFree 优化器。有关更多信息,请参阅 使用 Hugging Face Transformers Trainer 类的大型语言模型。另请参阅 Hugging Face Transformers 文档中的优化器。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
PyTorch v1.12.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 10 月 4 日
通用更新
-
添加了对 TensorFlow v2.10.0 的支持。
其他更改
-
在 TensorFlow 框架测试中添加了使用 Transformers 库的 Hugging Face NLP 模型。要查找经过测试的 Transformer 模型,请参阅经过测试的模型。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
TensorFlow v2.10.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemaker要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 9 月 1 日
通用更新
-
添加了对带 PyTorch v1.11.0 的 Hugging Face Transformers v4.21.1 的支持。
改进
-
实现了一种新的分布式训练启动器机制,以便为带 PyTorch 的 Hugging Face Transformer 模型激活 SageMaker Training Compiler。要了解更多信息,请参阅使用 SageMaker Training Compiler 运行 PyTorch 训练作业以进行分布式训练。
-
与 EFA 集成,可改善分布式训练中的集体通信。
-
添加了对用于 PyTorch 训练作业的 G5 实例的支持。有关更多信息,请参阅 支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
带 PyTorch v1.11.0 的 HuggingFace v4.21.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04
要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 6 月 14 日
新功能
-
添加了对 TensorFlow v2.9.1 的支持。SageMaker Training Compiler 完全支持编译 TensorFlow 模块 (
tf.*
) 和 TensorFlow Keras 模块 (tf.keras.*
)。 -
添加了对通过扩展适用于 TensorFlow 的 Amazon 深度学习容器创建的自定义容器的支持。有关更多信息,请参阅通过使用 SageMaker Python SDK 并扩展 SageMaker 框架深度学习容器来启用 SageMaker Training Compiler。
-
添加了对用于 TensorFlow 训练作业的 G5 实例的支持。
迁移到 Amazon 深度学习容器
此版本已通过基准测试并迁移到以下 Amazon 深度学习容器:
-
TensorFlow 2.9.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。
SageMaker Training Compiler 发行说明:2022 年 4 月 26 日
改进
-
添加了对已发布 Amazon 深度学习容器
的所有 Amazon Web Services 区域(中国地区除外)的支持。
SageMaker Training Compiler 发行说明:2022 年 4 月 12 日
通用更新
-
添加对带 TensorFlow v2.6.3 和 PyTorch v1.10.2 的 Hugging Face Transformers v4.17.0 的支持。
SageMaker Training Compiler 发行说明:2022 年 2 月 21 日
改进
-
已完成基准测试并确认
ml.g4dn
实例类型的训练速度已加快。要查找已测试的ml
实例的完整列表,请参阅 支持的实例类型。
SageMaker Training Compiler 发行说明:2021 年 12 月 1 日
新功能
已在 Amazon re:Invent 2021 上宣布推出 Amazon SageMaker Training Compiler。
迁移到 Amazon 深度学习容器
Amazon SageMaker Training Compiler 已通过基准测试并迁移到 Amazon 深度学习容器。要查找带 Amazon SageMaker Training Compiler 的预构建容器的完整列表,请参阅支持的框架,Amazon Web Services 区域、实例类型和测试的模型。