Kolmogorov-Smirnov (KS) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Kolmogorov-Smirnov (KS)

Kolmogorov-Smirnov 偏差指标 (KS) 等于数据集的分面 a 和分面 d 分布中标签之间的最大差异。SageMaker Clarify 实施的双样本 KS 测试通过找出最不平衡的标签,对其他的标签不平衡衡量标准进行了补充。

Kolmogorov-Smirnov 指标的公式如下:

        KS = max(|Pa(y) - Pd(y)|)

例如,假设一组大学申请人(分面 a)被拒绝、列入候补名单或被录取的比率分别为 40%、40% 和 20%,而其他申请人(分面 d)的这些比率分别为 20%、10% 和 70%,则 Kolmogorov-Smirnov 偏差指标值如下所示:

KS = max(|0.4-0.2|, |0.4-0.1|, |0.2-0.7|) = 0.5

这表明分面分布之间的最大差异为 0.5,并且出现在接受率中。等式中有三个项,因为标签是基数为三的多类。

二进制、多类别和连续结果的 LP 值范围为 [0, +1],其中:

  • 接近零的值表示标签在所有结果类别的各分面之间均匀分布。例如,申请贷款的两个分面分别获得了 50% 的接受率和 50% 的拒绝率。

  • 接近一的值表示一个结果的标签都集中在一个分面。例如,分面 a 获得了 100% 的接受率,而分面 d 的接受率为零。

  • 间歇值表示最大标签不平衡的相对程度。