

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon SageMaker 训练编译器发行说明
<a name="training-compiler-release-notes"></a>

**重要**  
Amazon Web Services (Amazon) 宣布， SageMaker 训练编译器将没有新版本或新版本。你可以继续通过现有的 Dee Amazon p Learning Containers (DLCs) 使用 SageMaker SageMaker 训练编译器进行训练。值得注意的是，根据[Amazon 深度学习容器（Deep Learning Containers Framework Support）政策 Amazon](https://docs.amazonaws.cn/deep-learning-containers/latest/devguide/support-policy.html)，虽然现有内容 DLCs 仍然可以访问，但它们将不再收到来自的补丁或更新。

请参阅以下发行说明，以跟踪 Amazon Training Compil SageMaker er 的最新更新。

## SageMaker 训练编译器发行说明：2023 年 2 月 13 日
<a name="training-compiler-release-notes-20230213"></a>

**通用更新**
+ 增加了对 PyTorch v1.13.1 的支持

**错误修复**
+ 修复了 GPU 上的竞争条件问题，该问题导致某些模型（例如视觉转换器 (ViT) 模型）中的 NAN 丢失。

**其他更改**
+ SageMaker Training Compiler PyTorch/XLA 允许自动覆盖优化器（例如 SGD、Adam、AdamW）`torch.optim`或`transformers.optimization`其中的同步版本`torch_xla.amp.syncfree`（例如、、），从而提高性能。`torch_xla.amp.syncfree.SGD` `torch_xla.amp.syncfree.Adam` `torch_xla.amp.syncfree.AdamW`您无需更改训练脚本中定义优化器的代码行。

**迁移到 Amazon 深度学习容器**

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器：
+ PyTorch v1.13.1

  ```
  763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker
  ```

  要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表，请参阅[支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型](training-compiler-support.md)。

## SageMaker 训练编译器发行说明：2023 年 1 月 9 日
<a name="training-compiler-release-notes-20230109"></a>

**重大更改**
+ `tf.keras.optimizers.Optimizer`指向 TensorFlow 2.11.0 及更高版本中的新优化器。旧版优化器已移至 `tf.keras.optimizers.legacy`。在执行以下操作时，您可能会因重大更改而遇到作业失败。
  + 从旧版优化器加载检查点。我们建议您进行切换以使用旧版优化器。
  + 使用 TensorFlow v1。如果您需要继续使用 TensorFlow TensorFlow v1，我们建议您迁移到 v2，或者切换到旧版优化器。

  有关优化器更改的重大更改的更多详细列表，请参阅存储库中的[官方 TensorFlow v2.11.0 发行说明](https://github.com/tensorflow/tensorflow/releases/tag/v2.11.0)。 TensorFlow GitHub

**迁移到 Amazon 深度学习容器**

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器：
+ TensorFlow v2.11.0

  ```
  763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemaker
  ```

  要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表，请参阅[支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型](training-compiler-support.md)。

## SageMaker 训练编译器发行说明：2022 年 12 月 8 日
<a name="training-compiler-release-notes-20221208"></a>

**错误修复**
+ 修复了从 PyTorch v1.12 开始的 PyTorch 训练作业的种子，以确保不同进程之间的模型初始化没有差异。另请参阅 “[PyTorch可重复性](https://pytorch.org/docs/stable/notes/randomness.html)”。
+ 修复了导致 G4dN 和 G5 实例上的 PyTorch 分布式训练作业不默认通过通信的问题。[PCIe](https://en.wikipedia.org/wiki/PCI_Express)

**已知问题**
+  PyTorch/XLA APIs 在 Hugging Face 的视觉转换器中使用不当可能会导致融合问题。

**其他更改**
+ 使用 Hugging Fac `Trainer` e Transformers 类时，请确保 SyncFree 使用优化器，方法`optim`是将参数设置为。`adamw_torch_xla`有关更多信息，请参阅 [使用 Hugging Face Transformers `Trainer` 类的大型语言模型](training-compiler-pytorch-models.md#training-compiler-pytorch-models-transformers-trainer)。另请参阅 *Hugging Face Transformers 文档*中的[优化器](https://huggingface.co/docs/transformers/v4.23.1/en/perf_train_gpu_one#optimizer)。

**迁移到 Amazon 深度学习容器**

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器：
+ PyTorch v1.12.0

  ```
  763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker
  ```

  要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表，请参阅[支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型](training-compiler-support.md)。

## SageMaker 训练编译器发行说明：2022 年 10 月 4 日
<a name="training-compiler-release-notes-20221004"></a>

**通用更新**
+ 增加了对 TensorFlow v2.10.0 的支持。

**其他更改**
+ 在框架测试中添加了使用《变形金刚》库的 Hugging Face NLP 模型 TensorFlow。要查找经过测试的 Transformer 模型，请参阅[经过测试的模型](training-compiler-support.md#training-compiler-tested-models)。

**迁移到 Amazon 深度学习容器**

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器：
+ TensorFlow v2.10.0

  ```
  763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemaker
  ```

  要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表，请参阅[支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型](training-compiler-support.md)。

## SageMaker 训练编译器发行说明：2022 年 9 月 1 日
<a name="training-compiler-release-notes-20220825"></a>

**通用更新**
+ 在 1.11.0 版本中增加了对 Hugging Face Transformers v4.21.1 PyTorch 的支持。

**改进**
+ 实现了一种新的分布式训练启动器机制，用于激活 Hugging Face Transformer 模型 PyTorch的 SageMaker 训练编译器。要了解更多信息，请参阅使用[分布式 PyTorch训练的 SageMaker 训练编译器运行训练作业](training-compiler-enable-pytorch.md#training-compiler-estimator-pytorch-distributed)。
+ 与 EFA 集成，可改善分布式训练中的集体通信。
+ 增加了对 PyTorch 训练作业的 G5 实例的支持。有关更多信息，请参阅 [支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型](training-compiler-support.md)。

**迁移到 Amazon 深度学习容器**

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器：
+ [HuggingFace v4.21.1 和 v1.11.0 PyTorch ](https://github.com/aws/deep-learning-containers/releases/tag/v1.0-trcomp-hf-4.21.1-pt-1.11.0-tr-gpu-py38)

  ```
  763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04
  ```

  要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表，请参阅[支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型](training-compiler-support.md)。

## SageMaker 训练编译器发行说明：2022 年 6 月 14 日
<a name="training-compiler-release-notes-20220614"></a>

**新功能**
+ 增加了对 TensorFlow v2.9.1 的支持。 SageMaker 训练编译器完全支持编译 TensorFlow 模块 (`tf.*`) 和 TensorFlow Keras 模块 (`tf.keras.*`)。
+ 增加了对通过扩展 Dee Amazon p Learning Containers 创建的自定义容器的支持 TensorFlow。有关更多信息，请参阅[使用 SageMaker Python SDK 启用 SageMaker 训练编译器和扩展 SageMaker AI 框架 Deep Learning Container](training-compiler-enable-tensorflow.md#training-compiler-enable-tensorflow-sdk-extend-container) s。
+ 增加了对 TensorFlow 训练作业的 G5 实例的支持。

**迁移到 Amazon 深度学习容器**

此版本通过了基准测试并已迁移到以下 Amazon 深度学习容器：
+ TensorFlow 2.9.1

  ```
  763104351884.dkr.ecr.<region>.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker
  ```

  要查找使用 Amazon T SageMaker raining Compiler 的预建容器的完整列表，请参阅[支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型](training-compiler-support.md)。

## SageMaker 训练编译器发行说明：2022 年 4 月 26 日
<a name="training-compiler-release-notes-20220426"></a>

**改进**
+ 增加了对除中国 Amazon Web Services 区域 地区以外的所有[Amazon 深度学习容器](https://github.com/aws/deep-learning-containers/blob/master/available_images.md)服务地区的支持。

## SageMaker 训练编译器发行说明：2022 年 4 月 12 日
<a name="training-compiler-release-notes-20220412"></a>

**通用更新**
+ 在 v2.6.3 和 1.10.2 版本中增加了对 Hugging Face Transformers v4.17.0 TensorFlow 的支持。 PyTorch 

## SageMaker 训练编译器发行说明：2022 年 2 月 21 日
<a name="training-compiler-release-notes-20220221"></a>

**改进**
+ 已完成基准测试并确认 `ml.g4dn` 实例类型的训练速度已加快。要查找已测试的 `ml` 实例的完整列表，请参阅 [支持的实例类型](training-compiler-support.md#training-compiler-supported-instance-types)。

## SageMaker 训练编译器发行说明：2021 年 12 月 1 日
<a name="training-compiler-release-notes-20211201"></a>

**新功能**
+ 在 re Amazon : Invent 2021 上推出了亚马逊 SageMaker 训练编译器。

**迁移到 Amazon 深度学习容器**
+ Amazon T SageMaker raining Compiler 通过了基准测试并已迁移到 Amazon 深度学习容器。要查找使用 Amazon T SageMaker raining Compiler 预建容器的完整列表，请参阅[支持的框架 Amazon Web Services 区域、实例类型和经过测试的模型](training-compiler-support.md)。