LDA 超参数 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

LDA 超参数

CreateTrainingJob 请求中,您可以指定训练算法。您还可以指定算法特定的超参数作为字符串到字符串映射。下表列出了 Amazon SageMaker 为 LDA 训练算法提供的超参数。有关更多信息,请参阅 LDA 工作原理

参数名称 描述
num_topics

要在数据中查找的 LDA 的主题数。

必填

有效值:正整数

feature_dim

输入文档语料库的词汇表的大小。

必填

有效值:正整数

mini_batch_size

输入文档语料库中的文档的总数。

必填

有效值:正整数

alpha0

浓度参数的初始猜测:狄利克雷先验元素之和。小的值更有可能产生稀疏的主题混合,大的值 (大于 1.0) 会产生更均匀的混合。

可选

有效值:正浮点数

默认值:1.0

max_restarts

在算法的交替最小二乘 (ALS) 谱分解阶段执行的重启次数。可用于通过额外计算来寻找更好的质量局部最小值,但通常不应进行调整。

可选

有效值:正整数

默认值:10

max_iterations

在算法的 ALS 阶段执行的迭代的最大次数。可用于通过额外计算来寻找更好的质量最小值,但通常不应进行调整。

可选

有效值:正整数

默认值:1000

tol

算法的 ALS 阶段的目标容错。可用于通过额外计算来寻找更好的质量最小值,但通常不应进行调整。

可选

有效值:正浮点数

默认值:1e-8