Sequence-to-Sequence 超参数

下表列出了在使用 Amazon A SageMaker I Sequence-to-Sequence (seq2seq) 算法进行训练时可以设置的超参数。

参数名称	说明
`batch_size`	用于梯度下降的小批次大小。可选有效值：正整数默认值：64
`beam_size`	光束搜索的光束的长度。在训练期间用于计算 `bleu`，以及在推理期间使用。可选有效值：正整数默认值：5
`bleu_sample_size`	在训练过程中从验证数据集中选取以解码并计算 `bleu` 分数的实例数。设置为 -1 可使用完整验证集（如果选择 `bleu` 作为 `optimized_metric`）。可选有效值：整数默认值：0
`bucket_width`	返回最多 (`max_seq_len_source`、`max_seq_len_target`) 个 (源、目标) 存储桶。数据的较长边使用步长，`bucket_width`而较短的一边使用按平均 target/source 长度比率缩小的步长。如果一侧的最大长度超过另一侧，则该侧额外存储桶的宽度固定在 `max_len` 的那一侧。可选有效值：正整数默认值：10
`bucketing_enabled`	设置为 `false` 可禁用分桶，展开到最大长度。可选有效值：`true` 或 `false` 默认值：`true`
`checkpoint_frequency_num_batches`	检查点并评估每个 x 批处理。这个检查点超参数被传递给 SageMaker AI 的 seq2seq 算法，用于提早停止和检索最佳模型。该算法的检查点操作在算法的训练容器中本地运行，与 SageMaker AI 检查点不兼容。该算法暂时将检查点保存到本地路径，并在训练作业停止后将最佳模型构件存储到 S3 中的模型输出路径中。可选有效值：正整数默认值：1000
`checkpoint_threshold`	在停止训练之前，允许在验证数据集上的 `optimized_metric` 中不改进检查点模型的最大数量。这个检查点超参数被传递给 SageMaker AI 的 seq2seq 算法，用于提早停止和检索最佳模型。该算法的检查点操作在算法的训练容器中本地运行，与 SageMaker AI 检查点不兼容。该算法暂时将检查点保存到本地路径，并在训练作业停止后将最佳模型构件存储到 S3 中的模型输出路径中。可选有效值：正整数默认值：3
`clip_gradient`	大于此的剪辑绝对梯度值。设置为负表示禁用。可选有效值：浮点值默认值：1
`cnn_activation_type`	要使用的 `cnn` 激活类型。可选有效值：字符串。以下值之一：`glu`、`relu`、`softrelu`、`sigmoid` 或 `tanh`。默认值：`glu`
`cnn_hidden_dropout`	卷积层之间的退出的丢弃概率。可选有效值：浮点值。范围为 [0,1]。默认值：0
`cnn_kernel_width_decoder`	`cnn` 解码器的内核宽度。可选有效值：正整数默认值：5
`cnn_kernel_width_encoder`	`cnn` 编码器的内核宽度。可选有效值：正整数默认值：3
`cnn_num_hidden`	编码器和解码器的 `cnn` 隐藏单元的数量。可选有效值：正整数默认值：512
`decoder_type`	解码器类型。可选有效值：字符串。`rnn` 或 `cnn`。默认值：rnn
`embed_dropout_source`	源端嵌入的丢弃概率。可选有效值：浮点值。范围为 [0,1]。默认值：0
`embed_dropout_target`	目标端嵌入的丢弃概率。可选有效值：浮点值。范围为 [0,1]。默认值：0
`encoder_type`	编码器类型。`rnn` 架构基于 Bahdanau 等人提出的关注机制，cnn 架构基于 Gehring 等人提出的关注机制。可选有效值：字符串。`rnn` 或 `cnn`。默认值：`rnn`
`fixed_rate_lr_half_life`	就 `fixed_rate_`* 计划程序的检查点数量来说，学习率的半生命周期。可选有效值：正整数默认值：10
`learning_rate`	初始学习率。可选有效值：浮点值默认值：0.0003
`loss_type`	训练的损失函数。可选有效值：字符串。`cross-entropy` 默认值：`cross-entropy`
`lr_scheduler_type`	学习率计划程序类型。`plateau_reduce` 表示每当 `validation_accuracy` 稳定状态上有 `optimized_metric` 时，就降低学习率。`inv_t` 是反时衰减。`learning_rate`/(1+`decay_rate`*t) 可选有效值：字符串。`plateau_reduce`、`fixed_rate_inv_t` 或 `fixed_rate_inv_sqrt_t`。默认值：`plateau_reduce`
`max_num_batches`	updates/batches 要处理的最大数量。-1 表示无限。可选有效值：整数默认值：-1
`max_num_epochs`	在停止调整之前通过训练数据传递的最大纪元数。如果传递此参数，则即使验证准确性没有提高，训练仍将持续到此数量纪元。如果不传递，则会忽略。可选有效值：小于或等于 max_num_epochs 的正整数。默认值：无
`max_seq_len_source`	源序列长度的最大长度。比此长度长的序列被截断为此长度。可选有效值：正整数默认值：100
`max_seq_len_target`	目标序列长度的最大长度。比此长度长的序列被截断为此长度。可选有效值：正整数默认值：100
`min_num_epochs`	在通过 `early_stopping` 条件停止之前，训练必须运行的最少纪元数。可选有效值：正整数默认值：0
`momentum`	用于 `sgd` 的动量常量。如果您使用的是 `adam` 或 `rmsprop`，请不要传递此参数。可选有效值：浮点值默认值：无
`num_embed_source`	源标记的嵌入大小。可选有效值：正整数默认值：512
`num_embed_target`	目标标记的嵌入大小。可选有效值：正整数默认值：512
`num_layers_decoder`	解码器 rnn 或 cnn 的层数。可选有效值：正整数默认值：1
`num_layers_encoder`	编码器 `rnn` 或 `cnn` 的层数。可选有效值：正整数默认值：1
`optimized_metric`	用于使用早期停止进行优化的指标。可选有效值：字符串。`perplexity`、`accuracy` 或 `bleu`。默认值：`perplexity`
`optimizer_type`	可供从中选择的优化程序。可选有效值：字符串。`adam`、`sgd` 或 `rmsprop`。默认值：`adam`
`plateau_reduce_lr_factor`	与学习率相乘的系数 (对于 `plateau_reduce`)。可选有效值：浮点值默认值：0.5
`plateau_reduce_lr_threshold`	对于 `plateau_reduce` 计划程序，如果 `optimized_metric` 未改善这很多检查点，则用学习率乘以降低系数。可选有效值：正整数默认值：3
`rnn_attention_in_upper_layers`	将关注传递到 rnn 的上层，如 Google NMT 文章中所述。仅在使用多个层时才适用。可选有效值：布尔值（`true` 或 `false`）默认值：`true`
`rnn_attention_num_hidden`	关注层的隐藏单元数量。默认值为 `rnn_num_hidden`。可选有效值：正整数默认值：`rnn_num_hidden`
`rnn_attention_type`	编码器的关注模型。`mlp` 是指 concat，bilinear 是指 general（源自 Luong 等人的论文）。可选有效值：字符串。以下值之一：`dot`、`fixed`、`mlp` 或 `bilinear`。默认值：`mlp`
`rnn_cell_type`	特定类型的 `rnn` 架构。可选有效值：字符串。`lstm` 或 `gru`。默认值：`lstm`
`rnn_decoder_state_init`	如何从编码器初始化 `rnn` 解码器状态。可选有效值：字符串。`last`、`avg` 或 `zero`。默认值：`last`
`rnn_first_residual_layer`	第一个具有剩余连接的 rnn 层，只有在编码器或解码器中的层数超过 1 时才适用。可选有效值：正整数默认值：2
`rnn_num_hidden`	编码器和解码器的 rnn 隐藏单元的数量。这必须是 2 的倍数，因为默认情况下该算法使用双向长短期记忆 (LSTM)。可选有效值：正偶数默认值：1024
`rnn_residual_connections`	将剩余连接添加到堆叠的 rnn。层数应超过 1。可选有效值：布尔值（`true` 或 `false`）默认值：`false`
`rnn_decoder_hidden_dropout`	将上下文与解码器中的 rnn 隐藏状态结合的隐藏状态的丢弃概率。可选有效值：浮点值。范围为 [0,1]。默认值：0
`training_metric`	用于跟踪验证数据训练的指标。可选有效值：字符串。`perplexity` 或 `accuracy`。默认值：`perplexity`
`weight_decay`	权重衰减常量。可选有效值：浮点值默认值：0
`weight_init_scale`	权重初始化规模（对于 `uniform` 和 `xavier` 初始化）。可选有效值：浮点值默认值：2.34
`weight_init_type`	权重初始化的类型。可选有效值：字符串。`uniform` 或 `xavier`。默认值：`xavier`
`xavier_factor_type`	Xavier 系数类型。可选有效值：字符串。`in`、`out` 或 `avg`。默认值：`in`

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

工作方式

模型优化