在异构集群上运行训练作业

使用 Training 的 SageMaker 异构集群功能，您可以使用多种类型的机器学习实例运行训练作业，从而更好地扩展资源，更好地利用不同的机器学习训练任务和目的。例如，如果带 GPU 实例的集群上的训练作业因 CPU 密集型任务而遇到 GPU 利用率低和 CPU 瓶颈问题，则可使用异构集群，通过添加更具成本效益的 CPU 实例组来协助卸载 CPU 密集型任务，解决此类瓶颈问题并实现更高的 GPU 利用率。

注意

此功能在 SageMaker Python SDK v2.98.0 及更高版本中可用。

注意

此功能可通过 SageMaker AI PyTorch和TensorFlow框架估算器类获得。支持的框架是 PyTorch v1.10 或更高版本以及 TensorFlow v2.6 或更高版本。

另请参阅博客使用 Amazon A SageMaker I 异构集群提高模型训练的价格性能。

主题

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

SageMaker AI 环境变量和训练存储位置的默认路径

在 Amazon A SageMaker I 中使用异构集群配置训练作业