本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
K-Means 超参数
在 CreateTrainingJob
请求中,您指定要使用的训练算法。您也可以将特定于算法的超参数指定为地图。 string-to-string 下表列出了 Amazon 提供的 k 均值训练算法的超参数。 SageMaker有关 k-means 聚类工作原理的更多信息,请参阅K-Means 聚类的工作原理。
参数名称 | 描述 |
---|---|
feature_dim |
输入数据中的特征数。 必填 有效值:正整数 |
k |
所需聚类的数量。 必填 有效值:正整数 |
epochs |
对训练数据完成的扫描次数。 可选 有效值:正整数 默认值:1 |
eval_metrics |
一个用于报告模型分数的指标类型的 JSON 列表。对于均方差,允许的值为 可选 有效值: 默认值: |
extra_center_factor |
该算法会在运行时创建 K 个中心 = 可选 有效值:正整数或 默认值: |
half_life_time_size |
用于确定计算聚类均值时赋予观察的权重。随着观察到的点越来越多,此权重呈指数倍衰减。当首次观察到一个点的情况下,在计算聚类均值时,它的权重为 1。选择指数衰减函数的衰减常数,以便在观察 可选 有效值:非负整数 默认值:0 |
init_method |
算法选择初始聚类中心的方法。标准 k-means 方法会随机选择这些方法。备用 k-means++ 方法会随机选择第一个聚类中心。然后,它通过加权中心选择来扩展其余初始聚类的位置,其概率分布与其余数据点到现有中心的距离的平方成比例。 可选 有效值: 默认值: |
local_lloyd_init_method |
用于构建包含 可选 有效值: 默认值: |
local_lloyd_max_iter |
用于构建包含 可选 有效值:正整数 默认值:300 |
local_lloyd_num_trials |
在构建包含 可选 有效值:正整数或 默认值: |
local_lloyd_tol |
用于构建包含 可选 有效值:浮点值。范围为 [0, 1]。 默认值:0.0001 |
mini_batch_size |
用于数据迭代器的每个小批量的观察次数。 可选 有效值:正整数 默认值:5000 |