K-Means 超参数 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

K-Means 超参数

CreateTrainingJob请求中,您可以指定要使用的训练算法。您还可以指定算法特定的超参数作为字符串到字符串映射。下表列出了 为 k-means 训练算法提供的超参数。Amazon SageMaker. 有关 k-means 聚类工作原理的更多信息,请参阅K-Means 聚类的工作原理.

参数名称 描述
feature_dim

输入数据中的特征数。

必需

有效值:正整数

k

所需聚类的数量。

必需

有效值:正整数

epochs

对训练数据完成的扫描次数。

可选

有效值:正整数

默认值:1

eval_metrics

一个用于报告模型分数的指标类型的 JSON 列表。对于均方误差,允许的值为 msd;对于平方距离和,允许的值为 ssd 如果提供了测试数据,则会针对所请求的每个指标报告分数。

可选

有效值: [\"msd\"][\"ssd\"][\"msd\",\"ssd\"]

默认值: [\"msd\"]

extra_center_factor

该算法会在运行时创建 K 个中心 = num_clusters * extra_center_factor,并在最终生成模型时将中心数量从 K 减少至 k

可选

有效值:正整数或 auto.

默认值: auto

half_life_time_size

用于确定计算聚类均值时赋予观察的权重。随着观察到的点越来越多,此权重呈指数倍衰减。当首次观察到一个点的情况下,在计算聚类均值时,它的权重为 1。选择指数衰减函数的衰减常数,以便在观察 half_life_time_size 个点后,其权重为 1/2。如果设置为 0,则没有衰减。

可选

有效值:非负整数

默认值:0

init_method

算法选择初始聚类中心的方法。标准 k-means 方法会随机选择这些方法。备用 k-means++ 方法会随机选择第一个聚类中心。然后,它通过加权中心选择来扩展其余初始聚类的位置,其概率分布与其余数据点到现有中心的距离的平方成比例。

可选

有效值:randomkmeans++.

默认值: random

local_lloyd_init_method

用于构建包含 k 个中心的最终模型的劳埃德最大期望算法 (EM) 过程的初始化方法。

可选

有效值:randomkmeans++.

默认值: kmeans++

local_lloyd_max_iter

用于构建包含 k 个中心的最终模型的劳埃德最大期望算法 (EM) 过程的最大迭代次数。

可选

有效值:正整数

默认值:300

local_lloyd_num_trials

在构建包含 k 个中心的最终模型时,运行具有最小损失的劳埃德最大期望算法 (EM) 过程的次数。

可选

有效值:正整数或 auto.

默认值: auto

local_lloyd_tol

用于构建包含 k 个中心的最终模型的劳埃德最大期望算法 (EM) 过程的提前停止损失变化的容忍度。

可选

有效值:浮点值。范围为 [0, 1]。

默认值:0.0001

mini_batch_size

用于数据迭代器的每个小批量的观察次数。

可选

有效值:正整数

默认值:5000