本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
调整 BlazingText 模型
自动模型优化(也称作超参数优化)通过运行很多在数据集上测试一系列超参数的作业来查找模型的最佳版本。您可以选择可优化超参数、每个超参数的值范围和一个目标指标。您可以从算法计算的指标中选择目标指标。自动模型优化将搜索所选超参数以找到导致优化目标指标的模型的值组合。
有关模型优化的更多信息,请参阅自动调整模型 SageMaker。
BlazingText算法计算的指标
BlazingText Word2Vec 算法(skipgram
cbow
、和batch_skipgram
模式)在训练期间报告单个指标:。train:mean_rho
该指标是基于 WS-353 单词相似度数据集
BlazingText 文本分类算法(supervised
模式)还会在训练期间报告一个指标:validation:accuracy
. 在优化文本分类算法的超参数值时,请使用这些指标作为目标。
指标名称 | 描述 | 优化方向 |
---|---|---|
train:mean_rho |
WS-353 单词相似性数据集 |
最大化 |
validation:accuracy |
用户指定的验证数据集的分类准确率 |
最大化 |
可调超参数 BlazingText
Word2Vec 算法的可优化超参数
使用以下超参数调整 Amazon SageMaker BlazingText Word2Vec 模型。对 Word2Vec 目标指标影响最大的超参数为:mode
、 learning_rate
、window_size
、vector_dim
和 negative_samples
。
参数名称 | 参数类型 | 建议的范围或值 |
---|---|---|
batch_size |
|
[8-32] |
epochs |
|
[5-15] |
learning_rate |
|
MinValue: 0.005, MaxValue: 0.01 |
min_count |
|
[0-100] |
mode |
|
[ |
negative_samples |
|
[5-25] |
sampling_threshold |
|
MinValue: 0.0001, MaxValue: 0.001 |
vector_dim |
|
[32-300] |
window_size |
|
[1-10] |
文本分类算法的可优化超参数
使用以下超参数调整 Amazon SageMaker BlazingText 文本分类模型。
参数名称 | 参数类型 | 建议的范围或值 |
---|---|---|
buckets |
|
[1000000-10000000] |
epochs |
|
[5-15] |
learning_rate |
|
MinValue: 0.005, MaxValue: 0.01 |
min_count |
|
[0-100] |
vector_dim |
|
[32-300] |
word_ngrams |
|
[1-3] |