Kolmogorov-Smirnov (KS) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Kolmogorov-Smirnov (KS)

对于数据集的分面 a d,Kolmogorv-Smirnov 偏移指标 (KS) 等于分布中标签之间的最大不一致性。由 实施的两样本 KS 测试通过查找最不平衡的标签来SageMaker Clarify补充标签不平衡的其他度量。

Kolmogorv-Smirnov 指标的公式如下所示:

        KS = max(|P)a(y) - Pd(y)|)

例如,假设一组申请(分面 a)到大学的申请被拒绝、等待列出或接受比例分别为 40%、40%、20%,并且其他申请者(分面 d)的申请比率为 20%、10%、 70%。然后,Kolmogorov-Smirnov 偏移指标值如下所示:

KS = 4-0|、|0.44-0|、|0-2-0) = 0.5

这将告知我们分面分布之间的最大差异为 0.5,并在接受率中出现。等式中有三个术语,因为标签是基数 3 的多类别。

二进制、多类别和连续结果的 LP 值范围为 [0, +1],其中:

  • 值接近零表示标签在所有结果类别中的分面之间均匀分布。例如,两个申请分配的分面都获得了 50% 的接受和 50% 的拒绝。

  • 接近一个的值表示一个结果的标签都位于一个分面中。例如,分面 a 获得了 100% 的接受,分面 d 获得了 none。

  • 间歇性值表示最大标签不平衡的相对度数。