本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
科尔莫哥罗夫-斯米尔诺夫(KS)
Kolmogorov-Smiirnov 偏差指标 (KS) 等于小面分布中标签之间的最大差异一个和D的数据集。实施的双样本 KS 测试 SageMaker 澄清通过找到最不平衡的标签来补充标签不平衡的其他措施。
Kolmogorov-Smiirnov 指标的公式如下:
KS = max (|Pa(y)-Pd(y) |)
例如,假设一组申请人(平面)一个) 大学被拒绝、候补名单或录取分别为 40%、40%、20%,而且其他申请人的这些费率(方面)D) 是 20%、10%、70%。然后 Kolmogorov-Smiirnov 偏差指标值如下:
KS = 最大值 (|0.4-0.2|, |0.4-0.1|, |0.2-0.7|) = 0.5
这告诉我们,平面分布之间的最大差异为 0.5,并且发生在接受率中。公式中有三个术语,因为标签是多类基数三。
二进制、多类别和连续结果的 LP 值范围为 [0, +1],其中:
-
接近零的值表示标签在所有结果类别中的小面之间均匀分布。例如,申请贷款的两个方面都获得了 50% 的接受和 50% 的拒绝。
-
接近一个值表示一个结果的标签都在一个方面。例如,方面一个获得了 100% 的接受和方面D没有。
-
间歇性值表示最大标签不平衡的相对程度。