

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 在异构集群上运行训练作业
<a name="train-heterogeneous-cluster"></a>

使用 Training 的 SageMaker 异构集群功能，您可以使用多种类型的机器学习实例运行训练作业，从而更好地扩展资源，更好地利用不同的机器学习训练任务和目的。例如，如果带 GPU 实例的集群上的训练作业因 CPU 密集型任务而遇到 GPU 利用率低和 CPU 瓶颈问题，则可使用异构集群，通过添加更具成本效益的 CPU 实例组来协助卸载 CPU 密集型任务，解决此类瓶颈问题并实现更高的 GPU 利用率。

**注意**  
此功能在 SageMaker Python SDK v2.98.0 及更高版本中可用。

**注意**  
此功能可通过 SageMaker AI [PyTorch](https://sagemaker.readthedocs.io/en/stable/frameworks/pytorch/sagemaker.pytorch.html)和[TensorFlow](https://sagemaker.readthedocs.io/en/stable/frameworks/tensorflow/sagemaker.tensorflow.html#tensorflow-estimator)框架估算器类获得。支持的框架是 PyTorch v1.10 或更高版本以及 TensorFlow v2.6 或更高版本。

另请参阅博客[使用 Amazon A SageMaker I 异构集群提高模型训练的价格性能](https://www.amazonaws.cn/blogs/machine-learning/improve-price-performance-of-your-model-training-using-amazon-sagemaker-heterogeneous-clusters/)。

**Topics**
+ [在 Amazon A SageMaker I 中使用异构集群配置训练作业](train-heterogeneous-cluster-configure.md)
+ [在 Amazon A SageMaker I 中的异构集群上运行分布式训练](train-heterogeneous-cluster-configure-distributed.md)
+ [修改训练脚本以分配实例组](train-heterogeneous-cluster-modify-training-script.md)