本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker 训练编译器发行说明
重要
Amazon Web Services (Amazon) 宣布, SageMaker 训练编译器将没有新版本或新版本。你可以继续通过现有的 Dee Amazon p Learning Containers (DLCs) 使用 SageMaker SageMaker 训练编译器进行训练。值得注意的是,根据Amazon 深度学习容器(Deep Learning Containers Framework Support)政策 Amazon,虽然现有内容 DLCs 仍然可以访问,但它们将不再收到来自的补丁或更新。
请参阅以下发行说明,以跟踪 Amazon Training Compil SageMaker er 的最新更新。
SageMaker 训练编译器发行说明:2023 年 2 月 13 日
通用更新
- 增加了对 PyTorch v1.13.1 的支持 
错误修复
- 
                修复了 GPU 上的竞争条件问题,该问题导致某些模型(例如视觉转换器 (ViT) 模型)中的 NAN 丢失。 
其他更改
- 
                SageMaker Training Compiler 让 PyTorch /XLA 自动覆盖优化器(例如 SGD、Adam、AdamW) torch.optim或transformers.optimization其中的无同步版本(例如、、),从而提高性能。torch_xla.amp.syncfreetorch_xla.amp.syncfree.SGDtorch_xla.amp.syncfree.Adamtorch_xla.amp.syncfree.AdamW您无需更改训练脚本中定义优化器的代码行。
迁移到 Amazon 深度学习容器
此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:
- 
                PyTorch v1.13.1 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表,请参阅支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型。 
SageMaker 训练编译器发行说明:2023 年 1 月 9 日
重大更改
- 
                tf.keras.optimizers.Optimizer指向 TensorFlow 2.11.0 及更高版本中的新优化器。旧版优化器已移至tf.keras.optimizers.legacy。在执行以下操作时,您可能会因重大更改而遇到作业失败。- 
                        从旧版优化器加载检查点。我们建议您进行切换以使用旧版优化器。 
- 
                        使用 TensorFlow v1。如果您需要继续使用 TensorFlow TensorFlow v1,我们建议您迁移到 v2,或者切换到旧版优化器。 
 有关优化器更改的重大更改的更多详细列表,请参阅存储库中的官方 TensorFlow v2.11.0 发行说明 。 TensorFlow GitHub 
- 
                        
迁移到 Amazon 深度学习容器
此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:
- 
                TensorFlow v2.11.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemaker要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表,请参阅支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型。 
SageMaker 训练编译器发行说明:2022 年 12 月 8 日
错误修复
- 
                修复了从 PyTorch v1.12 开始的 PyTorch 训练作业的种子,以确保不同进程之间的模型初始化没有差异。另请参阅 “PyTorch可重复性 ”。 
- 
                修复了导致 G4dN 和 G5 实例上的 PyTorch 分布式训练作业不默认通过通信的问题。PCIe 
已知问题
- 
                APIs 在 Hugging Face 的视觉转换器中不当使用 PyTorch /XLA 可能会导致收敛问题。 
其他更改
- 
                使用 Hugging Face Tr Traineransformers 类时,请通过将参数设置为optim,确保 SyncFree 使用优化器。adamw_torch_xla有关更多信息,请参阅 使用 Hugging Face Transformers Trainer 类的大型语言模型。另请参阅 Hugging Face Transformers 文档中的优化器。 
迁移到 Amazon 深度学习容器
此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:
- 
                PyTorch v1.12.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表,请参阅支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型。 
SageMaker 训练编译器发行说明:2022 年 10 月 4 日
通用更新
- 
                增加了对 TensorFlow v2.10.0 的支持。 
其他更改
- 
                在框架测试中添加了使用《变形金刚》库的 Hugging Face NLP 模型 TensorFlow。要查找经过测试的 Transformer 模型,请参阅经过测试的模型。 
迁移到 Amazon 深度学习容器
此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:
- 
                TensorFlow v2.10.0 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemaker要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表,请参阅支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型。 
SageMaker 训练编译器发行说明:2022 年 9 月 1 日
通用更新
- 
                在 1.11.0 版本中增加了对 Hugging Face Transformers v4.21.1 PyTorch 的支持。 
改进
- 
                实现了一种新的分布式训练启动器机制,用于激活 Hugging Face Transformer 模型 PyTorch的 SageMaker 训练编译器。要了解更多信息,请参阅使用分布式 PyTorch训练的 SageMaker 训练编译器运行训练作业。 
- 
                与 EFA 集成,可改善分布式训练中的集体通信。 
- 
                增加了对 PyTorch 训练作业的 G5 实例的支持。有关更多信息,请参阅 支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型。 
迁移到 Amazon 深度学习容器
此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:
- 
                HuggingFace v4.21.1 和 v1.11.0 PyTorch 763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表,请参阅支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型。 
SageMaker 训练编译器发行说明:2022 年 6 月 14 日
新功能
- 
                增加了对 TensorFlow v2.9.1 的支持。 SageMaker 训练编译器完全支持编译 TensorFlow 模块 ( tf.*) 和 TensorFlow Keras 模块 (tf.keras.*)。
- 
                增加了对通过扩展 Dee Amazon p Learning Containers 创建的自定义容器的支持 TensorFlow。有关更多信息,请参阅使用 SageMaker Python SDK 启用 SageMaker 训练编译器和扩展 SageMaker AI 框架 Deep Learning Container s。 
- 
                增加了对 TensorFlow 训练作业的 G5 实例的支持。 
迁移到 Amazon 深度学习容器
此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器:
- 
                TensorFlow 2.9.1 763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表,请参阅支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型。 
SageMaker 训练编译器发行说明:2022 年 4 月 26 日
改进
- 
                增加了对除中国 Amazon Web Services 区域 地区以外的所有Amazon 深度学习容器 服务地区的支持。 
SageMaker 训练编译器发行说明:2022 年 4 月 12 日
通用更新
- 
                在 v2.6.3 和 1.10.2 版本中增加了对 Hugging Face Transformers v4.17.0 TensorFlow 的支持。 PyTorch 
SageMaker 训练编译器发行说明:2022 年 2 月 21 日
改进
- 
                已完成基准测试并确认 ml.g4dn实例类型的训练速度已加快。要查找已测试的ml实例的完整列表,请参阅 支持的实例类型。
SageMaker 训练编译器发行说明:2021 年 12 月 1 日
新功能
- 在 re Amazon : Invent 2021 上推出了亚马逊 SageMaker 训练编译器。 
迁移到 Amazon 深度学习容器
- Amazon T SageMaker raining Compiler 通过了基准测试并已迁移到 Amazon 深度学习容器。要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表,请参阅支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型。