使用超参数优化文本生成模型的学习过程 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用超参数优化文本生成模型的学习过程

您可以通过调整以下超参数的任意组合来优化基础模型的学习过程。这些参数适用于所有型号。

  • Epoch CountepochCount超参数决定模型遍历整个训练数据集的次数。它会影响训练时长,如果设置得当,可以防止过度拟合。大量的 epoch 可能会增加微调作业的总体运行时间。我们建议MaxAutoMLJobRuntimeInSeconds在内设置一个较大的CompletionCriteria值,TextGenerationJobConfig以免微调作业过早停止。

  • Batch Siz e:batchSize超参数定义每次训练迭代中使用的数据样本数量。它可能会影响收敛速度和内存使用量。批量大时,内存不足 (OOM) 错误的风险会增加,这可能会在 Autopilot 中表现为内部服务器错误。要检查是否存在此类错误,请在/aws/sagemaker/TrainingJobs日志组中查看您的自动驾驶任务启动的训练作业。您可以 CloudWatch 从 Amazon 管理控制台中访问这些登录信息。选择日志,然后选择/aws/sagemaker/TrainingJobs日志组。要纠正 OOM 错误,请减少批次大小。

    我们建议从批量大小为 1 开始,然后逐渐增加批量,直到出现内存不足错误。作为参考,10 个纪元通常需要 72 小时才能完成。

  • 学习率learningRate超参数控制训练期间更新模型参数的步长。它决定了训练期间模型参数更新的速度或速度。高学习率意味着参数按较大的步长更新,这可以加快收敛速度,但也可能导致优化过程超出最佳解并变得不稳定。低学习率意味着参数按较小的步长更新,这可以带来更稳定的收敛性,但代价是学习速度较慢。

  • 学习速率预热步骤learningRateWarmupSteps超参数指定在达到目标值或最大值之前学习率逐渐提高的训练步骤数。这有助于模型更有效地收敛并避免在最初的高学习率下可能出现的诸如发散或收敛缓慢之类的问题。

要了解如何在 Autopilot 中为微调实验调整超参数并发现其可能的值,请参阅。如何设置超参数以优化模型的学习过程