有条件人口统计差异 (CDD) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

有条件人口统计差异 (CDD)

人口统计差指标 (DD) 确定分面 d 在数据集中的已拒绝结果比例是否高于接受的结果。例如,在进入大学时,如果女性申请者占已拒绝的申请人的 60%,且仅占已接受的申请人的 50%,则我们认为存在人口统计差异,因为女性被拒绝的速率超过了接受的速率。

不太常用的分面 d 的人口统计不一致的公式如下所示:

        DDd n=d (0/n(0) - nd (1)/n(1) = Pd R(y0)- PdA(y1)

其中:

  • n(0) = na(0) + nd(0) 是数据集中已拒绝结果的数量。

  • n(1) = na(1) + nd(1) 是数据集中接受的结果的数量。

  • Pd R(y0) 是 rejected results (拒绝的结果) 的比例(值为 0)。

  • Pd A(y1) 是分面 d 中接受的结果(值 1)的比例。

对于大学准入示例,人口统计差异为 DD = 0.6 - 0.5 = 0.1。

需要有条件人口统计不一致 (CDD) 指标来排除 Simpson 的异常,该指标用于限制定义数据集上子组子集的属性的 DD。重新分组可以提供对不太常用的分面明显人口统计差异的原因的见解。在 Berkeley 准入案例中,接受男性的总体比率高于女性。但是,在检查部门子组时,按部门显示女性的准入率高于男性。解释是,女性已应用于接受率低于男性的部门。检查子分段接受率表明,对于接受率较低的部门,实际接受女性的比率高于男性。

CDD 指标通过对数据集属性定义的子组中的所有差异取平均值,提供这些差异的单个度量。它定义为人口统计差异的加权平均值 (DD)i) ,每个子组的差异与 中包含的观察数成比例加权。条件人口统计差异的公式如下所示:

        CDD = (1/n)*ini *DDi

其中:

  • ini = n 是总观察次数,ni是每个子组的观察次数。

  • DDi n=i (0/n(0) - ni (1)/n(1) = Pi R(y0)- Pi A(y1) 是第 i 个子组的人口统计差异。

子组 (DD) 的人口统计差异i) 是每个子组的拒绝结果比例与接受结果比例之间的差值。

二进制结果的 DD 值范围为 (-1、+1)。

  • +1:当分面 a 或 子组中没有拒绝,分面 d 或 子组中没有接受时

  • 正值表示存在人口统计不一致,因为分面 d 或子组中拒绝结果的比例高于接受的结果。该值越大,不一致性越高。

  • 负值表示存在人口统计不一致,因为在数据集中 或 子部分具有的已拒绝结果的比例大于接受的结果。该值越小,差异越大。

  • -1:当分面 d 或子组中没有拒绝,分面 a 或子组中没有接受时

如果您未要求任何内容,则仅当 DPL 为零时,CDD 为零。

此指标对于探索欧盟和英国非区别法和法理中的直接和间接区别概念以及目标理由概念非常有用。有关其他信息,请参阅为什么无法自动执行公平性。