K-Means 超参数

在 CreateTrainingJob 请求中，您指定要使用的训练算法。您还可以指定算法特定的超参数作为字符串到字符串映射。下表列出了 Ama SageMaker zon AI 提供的 k 均值训练算法的超参数。有关 k-means 聚类工作原理的更多信息，请参阅K-Means 集群的工作原理。

参数名称	说明
`feature_dim`	输入数据中的特征数。必填有效值：正整数
`k`	所需聚类的数量。必填有效值：正整数
`epochs`	对训练数据完成的扫描次数。可选有效值：正整数默认值：1
`eval_metrics`	一个用于报告模型分数的指标类型的 JSON 列表。对于均方差，允许的值为 `msd`；对于平方距离和，允许的值为 `ssd`。如果提供了测试数据，则会针对所请求的每个指标报告分数。可选有效值：`[\"msd\"]`、`[\"ssd\"]` 或 `[\"msd\",\"ssd\"]`。默认值：`[\"msd\"]`
`extra_center_factor`	该算法会在运行时创建 K 个中心 = `num_clusters` * `extra_center_factor`，并在最终生成模型时将中心数量从 K 减少至 `k`。可选有效值：正整数或 `auto`。默认值：`auto`
`half_life_time_size`	用于确定计算聚类均值时赋予观察的权重。随着观察到的点越来越多，此权重呈指数倍衰减。当首次观察到一个点的情况下，在计算聚类均值时，它的权重为 1。选择指数衰减函数的衰减常数，以便在观测`half_life_time_size`点之后，其权重为。 1/2如果设置为 0，则没有衰减。可选有效值： Non-negative 整数默认值：0
`init_method`	算法选择初始聚类中心的方法。标准 k-means 方法会随机选择这些方法。备用 k-means++ 方法会随机选择第一个聚类中心。然后，它通过加权中心选择来扩展其余初始聚类的位置，其概率分布与其余数据点到现有中心的距离的平方成比例。可选有效值：`random` 或 `kmeans++`。默认值：`random`
`local_lloyd_init_method`	用于构建包含 `k` 个中心的最终模型的劳埃德最大期望算法 (EM) 过程的初始化方法。可选有效值：`random` 或 `kmeans++`。默认值：`kmeans++`
`local_lloyd_max_iter`	用于构建包含 `k` 个中心的最终模型的劳埃德最大期望算法 (EM) 过程的最大迭代次数。可选有效值：正整数默认值：300
`local_lloyd_num_trials`	在构建包含 `k` 个中心的最终模型时，运行具有最小损失的劳埃德最大期望算法 (EM) 过程的次数。可选有效值：正整数或 `auto`。默认值：`auto`
`local_lloyd_tol`	用于构建包含 `k` 个中心的最终模型的劳埃德最大期望算法 (EM) 过程的提前停止损失变化的容忍度。可选有效值：浮点值。范围为 [0, 1]。默认值：0.0001
`mini_batch_size`	用于数据迭代器的每个小批量的观察次数。可选有效值：正整数默认值：5000

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

工作方式

模型优化