DeepAR 超参数 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

DeepAR 超参数

参数名称 描述
context_length

在进行预测之前,模型需要获取查看的时间点数量。此参数的值应该与 prediction_length 大致相同。此模型还接收来自目标的滞后输入,因此 context_length 可以比典型的季节性小得多。例如,每日时间序列可以具有每年的季节性。模型自动包括一年的滞后,因此上下文长度可以短于一年。模型选取的滞后值取决于时间序列的频率。例如,每日频率的滞后值为:前 1 周、2 周、3 周、4 周和 1 年。

必填

有效值:正整数

epochs

扫描训练数据的最大次数。最佳值取决于您的数据大小和学习率。另请参阅 early_stopping_patience。典型值范围为 10 到 1000。

必填

有效值:正整数

prediction_length

训练模型来预测的时间步长数,也称为预测期。训练后的模型始终生成此长度的预测。它无法生成更长的预测。在训练模型时,prediction_length 是固定的,以后无法更改。

必填

有效值:正整数

time_freq

数据集中时间序列的粒度。使用 time_freq 选择适当的日期特征和滞后。该模型支持以下基本频率。它还支持这些基本频率的倍数。例如,5min 指定 5 分钟的频率。

  • M:每月

  • W:每周

  • D:每天

  • H:每小时

  • min:每分钟

必填

有效值:一个整数,后跟 MWDHmin。例如,5min

cardinality

在使用分类特征 (cat) 时,cardinality 是一个数组,指定每个分类特征的类别(组)数。将此项设置为 auto 可从数据中推理基数。在数据集中未使用分类特征时,auto 模式也适用。这是该参数的推荐设置。

将基数设置为 ignore 可强制 DeepAR 不使用分类特征,即使数据中存在分类特征。

要执行额外的数据验证,可以将此参数明确设置为实际值。例如,如果提供了两个分类特征,第一个有 2 个可能值,另一个有 3 个可能值,则将此项设置为 [2, 3]。

有关如何使用分类特征的更多信息,请参阅 DeepAR 主文档页面上的数据部分。

可选

有效值:autoignore、正整数数组、空字符串或

默认值:auto

dropout_rate

训练期间使用的丢弃比率。该模型使用 zoneout 正则化。对于每次迭代,不更新隐藏神经元的随机子集。典型值小于 0.2。

可选

有效值:浮点值

默认值:0.1

early_stopping_patience

如果设置此参数,则在指定的 epochs 次数后没有取得进展时,训练将停止。返回具有最低损失的模型作为最后的模型。

可选

有效值:整数

embedding_dimension

每个分类特征学习的嵌入向量的大小(对所有分类特征使用相同的值)。

在提供了分类分组特征时,DeepAR 模型可以学习组级别的时间序列模式。为此,模型学习每个组大小为 embedding_dimension 的嵌入向量,该向量捕获组中所有时间序列的通用属性。较大的 embedding_dimension 允许模式捕获更复杂的模式。但是,由于增加 embedding_dimension 会增加模型中的参数数量,准确学习这些参数需要更多训练数据。此参数的典型值在 10 至 100 之间。

可选

有效值:正整数

默认值:10

learning_rate

训练中使用的学习率。典型值范围从 1e-4 到 1e-1。

可选

有效值:浮点值

默认值:1e-3

likelihood

模型生成一个概率预测,并可以提供分布的分位数和返回样本。根据您的数据,选择用于不确定性估算的相应可能性(噪声模型)。可以选择以下可能性:

  • gaussian (高斯):用于实际值数据。

  • beta:用于 0 和 1 之间 (含端值) 的实际值目标。

  • negative-binomial (负二项式):用于计数数据 (非负整数)。

  • student-T (T 检验):实际值数据的替代,非常适合突发式数据。

  • deterministic-L1 (确定性 L1):损失函数,不估算不确定性,仅学习单点预测。

可选

有效值:gaussian (高斯)betanegative-binomial (负二项式)student-T (T 检验)deterministic-L1 (确定性 L1) 之一。

默认值:student-T

mini_batch_size

训练期间使用的小批次的大小。典型值范围为 32 到 512。

可选

有效值:正整数

默认值:128

num_cells

RNN 的各个隐藏层中使用的单元数。典型值范围为 30 到 100。

可选

有效值:正整数

默认值:40

num_dynamic_feat

dynamic_feat 的数量在数据中提供。将此项设置为 auto 可从数据中推理动态特征的数量。在数据集中未使用动态特征时,auto 模式也适用。这是该参数的推荐设置。

要强制 DeepAR 不使用动态特征(即使数据中存在动态特征),请将 num_dynamic_feat 设置为 ignore

要执行额外的数据验证,可以将此参数明确设置为实际整数值。例如,如果提供了两个动态特征,则将此项设置为 2。

可选

有效值:autoignore、正整数或空字符串

默认值:auto

num_eval_samples

在计算测试准确性指标时,每个时间序列使用的样本数量。此参数对训练或最终模型没有任何影响。具体而言,可以使用不同数量的样本来查询模型。此参数仅影响训练后测试通道上报告的准确性分数。值越小,评估越快,但评估分数通常会更差且更不确定。当使用更高的分位数(例如 0.95)进行评估时,增加评估样本的数量可能会非常重要。

可选

有效值:整数

默认值:100

num_layers

RNN 中的隐藏层数。典型值范围为 1 到 4。

可选

有效值:正整数

默认值:2

test_quantiles

用于计算测试通道上的分位数损失的分位数。

可选

有效值:浮点数数组

默认值:[0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9]