优化 K-Means 模型 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

优化 K-Means 模型

自动模型优化(也称作超参数优化)通过运行很多在数据集上测试一系列超参数的作业来查找模型的最佳版本。您可以选择可优化超参数、每个超参数的值范围和一个目标指标。您可以从算法计算的指标中选择目标指标。自动模型优化将搜索所选超参数以找到导致优化目标指标的模型的值组合。

Amazon SageMaker k-means 算法是一种非自主型算法,它将数据分组为成员尽可能相似的聚类。因为它是非自主型的,所以不使用可优化超参数的验证数据集。但是,它确实接受测试数据集并发出指标,这些指标取决于每次训练结束时数据点与最终聚类中心之间的距离平方值。要找到报告有关测试数据集的最紧密聚类的模型,可以使用超参数优化作业。聚类可优化其成员的相似性。

有关模型优化的更多信息,请参阅执行自动模型优化.

K-Means 算法计算的指标

k-means 算法在训练期间计算以下指标。在优化模型时,选择这些指标之一作为目标指标。

指标名称 描述 优化方向
test:msd

测试集中每个记录与模型最近中心之间的均方距离。

最小化

test:ssd

测试集中每个记录与模型最近中心之间的平方距离总和。

最小化

可优化的 K-Means 超参数

使用以下超参数优化 Amazon SageMaker k-means 模型。对 k-means 目标指标影响最大的超参数为mini_batch_size:、 extra_center_factorinit_method。 优化超参数epochs通常会导致细微的改进。

参数名称 参数类型 建议的范围
epochs

IntegerParameterRanges

MinValue:1、MaxValue:10

extra_center_factor

IntegerParameterRanges

MinValue:4、MaxValue:10

init_method

CategoricalParameterRanges

['kmeans++', 'random']

mini_batch_size

IntegerParameterRanges

MinValue:3000、MaxValue15000