优化序列到序列模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

优化序列到序列模型

自动模型优化(也称作超参数优化)通过运行很多在数据集上测试一系列超参数的作业来查找模型的最佳版本。您可以选择可优化超参数、每个超参数的值范围和一个目标指标。您可以从算法计算的指标中选择目标指标。自动模型优化将搜索所选超参数以找到导致优化目标指标的模型的值组合。

有关模型优化的更多信息,请参阅使用 SageMaker 执行自动模型调优

由序列到序列算法计算的指标

序列到序列算法报告在训练期间所计算的三个指标。在优化超参数值时,选择其中之一作为优化的目标。

指标名称 描述 优化方向
validation:accuracy

在验证数据集上计算的准确率。

最大化

validation:bleu

在验证数据集上计算的 Bleu 分数。由于 BLEU 计算成本高昂,您可以选择在验证数据集的随机子样本上计算 BLEU,以加速整体训练过程。使用 bleu_sample_size 参数指定子样本。

最大化

validation:perplexity

困惑度,是在验证数据集上计算的损失函数。困惑度评估经验样本与模型预测分布之间的交叉熵,这可用于评估模型预测样本值的效果有多好。能够很好地预测样本的模型具有低困惑度。

最小化

可优化序列到序列超参数

您可以为 SageMaker 序列到序列算法优化以下超参数。对序列到序列目标指标影响最大的超参数包括:batch_sizeoptimizer_typelearning_ratenum_layers_encodernum_layers_decoder

参数名称 参数类型 建议的范围
num_layers_encoder

IntegerParameterRange

[1-10]

num_layers_decoder

IntegerParameterRange

[1-10]

batch_size

CategoricalParameterRange

[16,32,64,128,256,512,1024,2048]

optimizer_type

CategoricalParameterRange

['adam', 'sgd', 'rmsprop']

weight_init_type

CategoricalParameterRange

['xavier', 'uniform']

weight_init_scale

ContinuousParameterRange

对于 xavier 类型:最小值:2.0,最大值:3.0,对于 uniform 类型:最小值:-1.0,最大值:1.0

learning_rate

ContinuousParameterRange

最小值:0.00005,最大值:0.2

weight_decay

ContinuousParameterRange

最小值:0.0,最大值:0.1

momentum

ContinuousParameterRange

最小值:0.5,最大值:0.9

clip_gradient

ContinuousParameterRange

最小值:1.0,最大值:5.0

rnn_num_hidden

CategoricalParameterRange

仅适用于循环神经网络 (RNN)。[128,256,512,1024,2048]

cnn_num_hidden

CategoricalParameterRange

仅适用于卷积神经网络 (CNN)。[128,256,512,1024,2048]

num_embed_source

IntegerParameterRange

[256-512]

num_embed_target

IntegerParameterRange

[256-512]

embed_dropout_source

ContinuousParameterRange

最小值:0.0,最大值:0.5

embed_dropout_target

ContinuousParameterRange

最小值:0.0,最大值:0.5

rnn_decoder_hidden_dropout

ContinuousParameterRange

最小值:0.0,最大值:0.5

cnn_hidden_dropout

ContinuousParameterRange

最小值:0.0,最大值:0.5

lr_scheduler_type

CategoricalParameterRange

['plateau_reduce', 'fixed_rate_inv_t', 'fixed_rate_inv_sqrt_t']

plateau_reduce_lr_factor

ContinuousParameterRange

最小值:0.1,最大值:0.5

plateau_reduce_lr_threshold

IntegerParameterRange

[1-5]

fixed_rate_lr_half_life

IntegerParameterRange

[10-30]