文本分类- TensorFlow 超参数 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文本分类- TensorFlow 超参数

超参数是在机器学习模型开始学习之前设置的参数。Amazon SageMaker 内置的对象检测- TensorFlow 算法支持以下超参数。有关超参数调整的信息,请参阅调整文本分类- TensorFlow 模型

参数名称 描述
batch_size

训练的批次大小。对于在具有多个 GPU 的实例上进行训练,对所有 GPU 使用此批量大小。

有效值:正整数。

默认值:32

beta_1

"adam""adamw" 优化器的 beta1。表示一阶矩估计的指数衰减率。对其他优化程序则忽略。

有效值:浮点型,范围:[0.01.0]。

默认值:0.9

beta_2

"adam""adamw" 优化器的 beta2。表示二阶矩估计的指数衰减率。对其他优化程序则忽略。

有效值:浮点型,范围:[0.01.0]。

默认值:0.999

dropout_rate

顶层分类层中丢弃层的丢弃比率。仅在 reinitialize_top_layer 设置为 "True" 时使用。

有效值:浮点型,范围:[0.01.0]。

默认值:0.2

early_stopping

设置为 "True" 可在训练期间使用提前停止逻辑。设置为 "False" 则不使用提前停止。

有效值:字符串,以下任意值:("True""False")。

默认值:"False"

early_stopping_min_delta 认定为有所改进的所需的最小变化。小于值 early_stopping_min_delta 的绝对变化不会认定为改进。仅在 early_stopping 设置为 "True" 时使用。

有效值:浮点型,范围:[0.01.0]。

默认值:0.0

early_stopping_patience

继续训练而没有改善的纪元数。仅在 early_stopping 设置为 "True" 时使用。

有效值:正整数。

默认值:5

epochs

训练纪元数。

有效值:正整数。

默认值:10

epsilon

"adam""rmsprop""adadelta""adagrad" 优化器的 ε。通常设置为较小的值,以避免被 0 除。对其他优化程序则忽略。

有效值:浮点型,范围:[0.01.0]。

默认值:1e-7

initial_accumulator_value

累加器的起始值,对于 "adagrad" 优化器,为每个参数的动量值。对其他优化程序则忽略。

有效值:浮点型,范围:[0.01.0]。

默认值:0.0001

learning_rate 优化器的学习率。

有效值:浮点型,范围:[0.01.0]。

默认值:0.001

momentum

"sgd""nesterov" 优化器的动量。对其他优化程序则忽略。

有效值:浮点型,范围:[0.01.0]。

默认值:0.9

optimizer

优化程序类型。有关更多信息,请参阅 TensorFlow 文档中的优化器

有效值:字符串,以下任意值:("adamw""adam""sgd""nesterov""rmsprop" "adagrad""adadelta")。

默认值:"adam"

regularizers_l2

分类层中密集层的 L2 正则化因子。仅在 reinitialize_top_layer 设置为 "True" 时使用。

有效值:浮点型,范围:[0.01.0]。

默认值:0.0001

reinitialize_top_layer

如果设置为 "Auto",则在微调期间将重新初始化顶层分类层参数。对于增量训练,除非设置为 "True",否则不会重新初始化顶层分类层参数。

有效值:字符串,以下任意值:("Auto""True""False")。

默认值:"Auto"

rho

"adadelta""rmsprop" 优化器的梯度的折扣系数。对其他优化程序则忽略。

有效值:浮点型,范围:[0.01.0]。

默认值:0.95

train_only_on_top_layer

如果为 "True",则仅对顶层分类层参数进行微调。如果为 "False",则对所有模型参数进行微调。

有效值:字符串,以下任意值:("True""False")。

默认值:"False"

validation_split_ratio

为创建验证数据而随机拆分的训练数据比例。仅在未通过 validation 通道提供验证数据时使用。

有效值:浮点型,范围:[0.01.0]。

默认值:0.2

warmup_steps_fraction

梯度更新步骤总数中的一部分,作为预热,学习率从 0 增加到初始学习率。仅与 adamw 优化器一起使用。

有效值:浮点型,范围:[0.01.0]。

默认值:0.1