提前停止训练作业 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

提前停止训练作业

在按照目标指标进行衡量时,如果训练作业未能明显改进,则可提前停止超参数优化作业启动的训练作业。提前停止训练作业有助于减少计算时间,并帮助您避免过度拟合模型。要配置超参数调整作业以尽早停止训练作业,请执行以下操作之一:

  • 如果您使用的是适用于 Python (Boto 3) 的 AWS 开发工具包,请设置用于将调整作业配置为 TrainingJobEarlyStoppingTypeHyperParameterTuningJobConfig 对象的 AUTO 字段。

  • 如果您使用的是 Amazon SageMaker Python SDK,请将 early_stopping_typeHyperParameterTuner 对象的 参数设置为 Auto

  • 在 Amazon SageMaker 控制台中,在 Create hyperparameter tuning job (创建超参数优化任务) 工作流中的 Early stopping (提前停止) 下,选择 Auto (自动)

有关演示如何使用提前停止的示例笔记本,请参阅 https://github.com/awslabs/amazon-sagemaker-examples/blob/master/hyperparameter_tuning/image_classification_early_stopping/hpo_image_classification_early_stopping.ipynbhpo_image_classification_early_stopping.ipynb笔记本实例中示例的SageMaker超参数优化部分中的打开笔记本。有关在笔记本实例中使用示例笔记本的信息,请参阅示例笔记本

提前停止的工作原理

在您为超参数优化作业启用提前停止时,SageMaker 如下所示评估超参数优化作业启动的各个训练作业:

  • 在每个训练周期结束后,获取对象指标的值。

  • 计算直至当前周期的所有之前训练作业的目标指标运行平均值,然后计算所有运行平均值的中值。

  • 与直至当前周期的之前训练作业的目标指标运行平均值的中值相比,如果当前训练作业的目标指标值(在最小化目标指标时更高,或者在最大化目标指标时更低)更糟糕,SageMaker 停止当前训练作业。

支持提前停止的算法

要支持提前停止,算法必须为每个周期发出目标指标。以下内置 SageMaker 算法支持提前停止:

注意

当前支持提前停止的内置算法列表截止到 2018 年 12 月 13 日。之后其他内置算法可能会支持提前停止。如果算法发出的指标可用作超参数优化作业的目标指标(最好是验证指标),则它支持提前停止。

要在您自己的算法中使用提前停止,您编写的算法必须在每个周期后发出目标指标的值。以下列表演示了如何在不同框架中实现这一点:

TensorFlow

使用 tf.keras.callbacks.ProgbarLogger 类。有关信息,请参阅 https://www.tensorflow.org/api_docs/python/tf/keras/callbacks/ProgbarLogger

MXNet

使用 mxnet.callback.LogValidationMetricsCallback。有关信息,请参阅 https://mxnet.apache.org/api/python/callback/callback.html

Chainer

使用 extensions.Evaluator 类扩展 chainer。有关信息,请参阅 https://docs.chainer.org/en/v1.24.0/reference/extensions.html#evaluator

PyTorch 和 Spark

没有高级支持。您必须明确编写训练代码,以便其计算目标指标并在每个周期之后写入日志。