本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
灯光GBM超参数
下表包含 Amazon L SageMaker ight GBM 算法所需或最常用的超参数子集。用户可以设置这些参数,以便于从数据中估算模型参数。 SageMaker Ligh GBM t 算法是开源 L igh
注意
默认超参数基于 轻型GBM样本笔记本中的示例数据集。
默认情况下,L SageMaker ight GBM 算法会根据分类问题的类型自动选择评估指标和目标函数。Light GBM 算法根据数据中的标签数量来检测分类问题的类型。对于回归问题,评估指标为均方根误差,目标函数为 L2 损失。对于二元分类问题,评估指标和目标函数都是二元交叉熵。对于多元分类问题,评估指标是多类交叉熵,目标函数是 softmax。您可以使用 metric
超参数来更改默认评估指标。有关 Light GBM 超参数的更多信息,包括描述、有效值和默认值,请参阅下表。
参数名称 | 描述 |
---|---|
num_boost_round |
提升迭代的最大次数。注意:在内部,Light 会为多类分类问题GBM构造 有效值:整数,范围:正整数。 默认值: |
early_stopping_rounds |
如果在过去的 有效值:整数。 默认值: |
metric |
验证数据的评估指标。如果
有效值:字符串,以下任意值:( 默认值: |
learning_rate |
完成每批训练样本后,更新模型权重的速率。 有效值:浮点型,范围:( 默认值: |
num_leaves |
一个树中叶的最大数量。 有效值:整数,范围:( 默认值: |
feature_fraction |
每次迭代时要选择的特征的子集(树)。必须小于 1.0。 有效值:浮点型,范围:( 默认值: |
bagging_fraction |
与 有效值:浮点型,范围:( 默认值: |
bagging_freq |
执行装袋的频率。在每次 有效值:整数,范围:非负整数。 默认值: |
max_depth |
树模型的最大深度。这用于处理数据量较少时的过度拟合情况。如果 有效值:整数。 默认值: |
min_data_in_leaf |
一个叶的最小数据量。可用于处理过度拟合情况。 有效值:整数,范围:非负整数。 默认值: |
max_delta_step |
用于限制树叶的最大输出。如果 有效值:浮点值。 默认值: |
lambda_l1 |
L1 正则化。 有效值:浮点型,范围:非负浮点数。 默认值: |
lambda_l2 |
L2 正则化。 有效值:浮点型,范围:非负浮点数。 默认值: |
boosting |
提升类型 有效值:字符串,以下任意值:( 默认值: |
min_gain_to_split |
执行拆分所需的最小增益。可用于加快训练速度。 有效值:整数,浮点数:非负浮点数。 默认值: |
scale_pos_weight |
正向类的标签的权重。仅用于二元分类任务。如果 有效值:浮点型,范围:正浮点数。 默认值: |
tree_learner |
树学习器类型。 有效值:字符串,以下任意值:( 默认值: |
feature_fraction_bynode |
在每个树节点上选择随机特征的子集。例如,如果 有效值:整数,范围:( 默认值: |
is_unbalance |
如果训练数据不平衡,则设置为 有效值:字符串,以下任意值:( 默认值: |
max_bin |
用于存储桶特征值的最大箱数。较少的箱数可能会降低训练的准确性,但可能会提高总体性能。可用于处理过度拟合情况。 有效值:整数,范围:(1,∞)。 默认值: |
tweedie_variance_power |
控制 Tweedie 分布的方差。将此项设置为更接近 有效值:浮点型,范围:[ 默认值: |
num_threads |
用于运行 Light 的并行线程数GBM。值为 0 表示使用 OpenMP 中的默认线程数。 有效值:整数,范围:非负整数。 默认值: |
verbosity |
打印消息的详细程度。如果 有效值:整数。 默认值: |