优化 LDA 模型 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

优化 LDA 模型

自动模型优化(也称作超参数优化)通过运行很多在数据集上测试一系列超参数的作业来查找模型的最佳版本。您可以选择可优化超参数、每个超参数的值范围和一个目标指标。您可以从算法计算的指标中选择目标指标。自动模型优化将搜索所选超参数以找到导致优化目标指标的模型的值组合。

LDA 是一种自主型主题建模算法,它尝试将一组观察(文档)描述为不同类别(主题)的组合。“每单词对数似然”(PWLL) 指标评估一组学习主题(LDA 模型)准确描述测试文档数据集的可能性。较大的 PWLL 值表明测试数据更可能由 LDA 模型描述。

有关模型优化的更多信息,请参阅使用 SageMaker 执行自动模型调优

LDA 算法计算的指标

LDA 算法在训练期间报告单个指标:test:pwll。在优化模型时,选择此指标作为目标指标。

指标名称 描述 优化方向
test:pwll

测试数据集上的每单词对数似然。学习的 LDA 模型准确地描述测试数据集的可能性。

最大化

可优化的 LDA 超参数

您可以优化 LDA 算法的以下超参数。alpha0num_topics 这两个超参数都会影响到 LDA 目标指标 (test:pwll)。如果您还不知道这些超参数的最佳值(即最大化每单词对数似然并生成准确的 LDA 模型),则自动模型调整功能可以帮助您找出这些最佳值。

参数名称 参数类型 建议的范围
alpha0

ContinuousParameterRanges

最小值:0.1,最大值:10

num_topics

IntegerParameterRanges

最小值:1,最大值:150