

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# BlazingText 超参数
<a name="blazingtext_hyperparameters"></a>

在使用 `CreateTrainingJob` 请求开始训练作业时，可指定训练算法。您也可以将特定于算法的超参数指定为地图。 string-to-string BlazingText 算法的超参数取决于您使用的模式：Word2Vec（无监督）和文本分类（监督）。

## Word2Vec 超参数
<a name="blazingtext_hyperparameters_word2vec"></a>

下表列出了 Amazon AI 提供的 BlazingText Word2Vec 训练算法的超参数。 SageMaker 


| 参数名称 | 说明 | 
| --- | --- | 
| mode |  用于训练的 Word2vec 架构。 **必填** 有效值：`batch_skipgram`、`skipgram` 或 `cbow`  | 
| batch\$1size |  在 `mode` 设置为 `batch_skipgram` 时的每个批处理的大小。设置为一个介于 10 和 20 之间的数字。 **可选** 有效值：正整数 默认值：11  | 
| buckets |  要用于子词的哈希存储桶的数量。 **可选** 有效值：正整数 默认值：2000000  | 
| epochs |  传递训练数据的次数。 **可选** 有效值：正整数 默认值：5  | 
| evaluation |  是否使用 [WordSimilarity-353](http://www.gabrilovich.com/resources/data/wordsim353/wordsim353.html) 检验对训练后的模型进行评估。 **可选** 有效值：（布尔值）`True` 或 `False` 默认值：`True`  | 
| learning\$1rate |  用于参数更新的步长大小。 **可选** 有效值：正浮点数 默认值：0.05  | 
| min\$1char |  要用于子词/支付 n-grams 的字符的最小数目。 **可选** 有效值：正整数 默认值：3  | 
| min\$1count |  出现少于 `min_count` 次的单词将被丢弃。 **可选** 有效值：非负整数 默认值：5  | 
| max\$1char |  要用于子词/支付 n-grams 的字符的最大数目 **可选** 有效值：正整数 默认值：6  | 
| negative\$1samples |  负采样共享策略的负采样数。 **可选** 有效值：正整数 默认值：5  | 
| sampling\$1threshold |  单词出现次数的阈值。对训练数据中出现频率较高的单词进行随机下采样。 **可选** 有效值：正分数。建议的范围为 (0, 1e-3] 默认值：0.0001  | 
| subwords |  是否学习子词嵌入。 **可选** 有效值：（布尔值）`True` 或 `False` 默认值：`False`  | 
| vector\$1dim |  该算法学习的单词向量的维度。 **可选** 有效值：正整数 默认值：100  | 
| window\$1size |  上下文窗口的大小。上下文窗口是用于训练的目标单词周围的单词数。 **可选** 有效值：正整数 默认值：5  | 

## 文本分类超参数
<a name="blazingtext_hyperparameters_text_class"></a>

下表列出了 Amazon A SageMaker I 提供的文本分类训练算法的超参数。

**注意**  
虽然文本分类模式和 Word2Vec 模式之间的某些参数很常见，但根据上下文的不同，它们可能有不同的含义。


| 参数名称 | 说明 | 
| --- | --- | 
| mode |  训练模式。 **必填** 有效值：`supervised`  | 
| buckets |  要用于单词 n-grams 的哈希存储桶的数量。 **可选** 有效值：正整数 默认值：2000000  | 
| early\$1stopping |  是否在验证准确率在 `patience` 个纪元后未提高的情况下时停止训练。请注意，如果使用提前停止，则需要验证通道。 **可选** 有效值：（布尔值）`True` 或 `False` 默认值：`False`  | 
| epochs |  完成传递训练数据的最大次数。 **可选** 有效值：正整数 默认值：5  | 
| learning\$1rate |  用于参数更新的步长大小。 **可选** 有效值：正浮点数 默认值：0.05  | 
| min\$1count |  出现少于 `min_count` 次的单词将被丢弃。 **可选** 有效值：非负整数 默认值：5  | 
| min\$1epochs |  调用提前停止逻辑之前训练的最小纪元数。 **可选** 有效值：正整数 默认值：5  | 
| patience |  当验证集没有任何进展时，在应用提前停止之前等待的纪元数。仅当 `early_stopping` 为 `True` 时使用。 **可选** 有效值：正整数 默认值：4  | 
| vector\$1dim |  嵌入层的维度。 **可选** 有效值：正整数 默认值：100  | 
| word\$1ngrams |  要使用的单词 n-gram 特征的数量。 **可选** 有效值：正整数 默认值：2  | 