离散影响 (DI) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

离散影响 (DI)

预测标签指标中的正比例差异可以采用比率的形式进行评估。

预测标签指标中的正比例的比较可以采用比率而不是作为差值进行评估,就像使用 一样预测标签 (DPPL) 中的正比例的差异。不同的影响 (DI) 指标的定义是分面 a 的正向预测 (y' = 1) 的比例与分面 d 的正向预测 (y' = 1) 的比例。例如,如果模型预测向 60% 的中年组(分面 a)和 50% 的其他年龄组(分面 d)授予信用,则 DI = .5/.6 = 0.8,这表示正偏差和对分面 d 的负面影响。

预测标签的比例的公式:

        DI = q'd/q'a

其中:

  • q'a = n'a(1)/na 是获得值 1 的正面结果的分面 的预测比例。在我们的示例中,预测要获得授权借给的中年分面的比例。此处为 n'a(1) 表示获得正向预测结果的分面 的成员数,na 是分面 a 的成员数。

  • q'd = n'd(1)/nd 是获得值 1 的正面结果的分面 d 的预测比例。在我们的示例中,预测年老和年老人的分面会获得信用。此处为 n'd(1) 表示获得正向预测结果的分面 d 的成员数量,而 表示 nd 是分面 d 的成员数。

对于二进制、多类别分面和连续标签,为间隔 [0, ] 内的 DI 值范围∞。

  • 小于 1 的值表示分面 a 与分面 d 相比,预测正向结果的比例更高。这称为正偏差

  • 值为 1 表示人口统计奇偶校验。

  • 大于 1 的值表示分面 d 与分面 a 相比,预测正向结果的比例更高。这称为负偏差