优化 BlazingText 模型 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

优化 BlazingText 模型

自动模型优化(也称作超参数优化)通过运行很多在数据集上测试一系列超参数的作业来查找模型的最佳版本。您可以选择可优化超参数、每个超参数的值范围和一个目标指标。您可以从算法计算的指标中选择目标指标。自动模型优化将搜索所选超参数以找到导致优化目标指标的模型的值组合。

有关模型优化的更多信息,请参阅执行自动模型优化

算法计算的指标BlazingText

BlazingText 算法(Word2Vec、skipgramcbow 模式)在训练期间报告单个指标:batch_skipgramtrain:mean_rho。 此指标基于 WS-353 单词相似性数据集计算。在优化 Word2Vec 算法的超参数值时,请使用该指标作为目标。

文本分类算法(BlazingText 模式)也在训练期间报告单个指标:supervisedvalidation:accuracy 在优化文本分类算法的超参数值时,请使用这些指标作为目标。

指标名称 描述 优化方向
train:mean_rho

WS-353 单词相似性数据集的均值 rho(Spearman 的秩相关系数)

最大化

validation:accuracy

用户指定的验证数据集的分类准确率

最大化

可优化的 BlazingText 超参数

算法的可优化超参数Word2Vec

使用以下超参数优化 Amazon SageMaker BlazingText Word2Vec 模型。对 Word2Vec 目标指标影响最大的超参数包括:mode learning_ratewindow_sizevector_dimnegative_samples

参数名称 参数类型 建议的范围或值
batch_size

IntegerParameterRange

[8-32]

epochs

IntegerParameterRange

[5-15]

learning_rate

ContinuousParameterRange

MinValue:0.005,MaxValue:0.01

min_count

IntegerParameterRange

[0-100]

mode

CategoricalParameterRange

['batch_skipgram', 'skipgram', 'cbow']

negative_samples

IntegerParameterRange

[5-25]

sampling_threshold

ContinuousParameterRange

MinValue:0.0001,MaxValue:0.001

vector_dim

IntegerParameterRange

[32-300]

window_size

IntegerParameterRange

[1-10]

文本分类算法的可优化超参数

使用以下Amazon SageMaker超级参数BlazingText优化 文本分类模型。

参数名称 参数类型 建议的范围或值
buckets

IntegerParameterRange

[1000000-10000000]

epochs

IntegerParameterRange

[5-15]

learning_rate

ContinuousParameterRange

MinValue:0.005,MaxValue:0.01

min_count

IntegerParameterRange

[0-100]

mode

CategoricalParameterRange

['supervised']

vector_dim

IntegerParameterRange

[32-300]

word_ngrams

IntegerParameterRange

[1-3]