有条件的人口统计差异 (CDD) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

有条件的人口统计差异 (CDD)

人口差异指标 (DD) 确定了数据集中某个方面的拒绝结果的比例是否大于接受结果的比例。在构成数据集的两个方面(例如男性和女性)的二进制案例中,不受欢迎的一个被标记为平面D而且最喜欢的标签被标记为方面一个. 例如,在大学录取的情况下,如果女性申请人占被拒申请人的 46%,而且只占被接受申请人的 32%,我们说人口差异因为妇女被拒绝的比率超过了接受她们的比率. 女性申请人被标签为方面D在本例中,如果男性申请人占被拒申请人的 54% 和被接受申请人的 68%,那么这方面的人口统计差异就不存在,因为拒绝率低于接受率。男性申请者被标记为方面一个在本例中,

较不受青睐的方面的人口差异的公式D如下所示:

        DDdn=d(0)/n(0)-nd(1)/n(1)P =dRy0P)d一个y1

其中:

  • n(0)n=a(0)+nd(0)是受欢迎的方面的数据集中被拒绝的结果总数一个和处境不利的方面D.

  • n(1)n=a(1)+nd(1)是受欢迎的方面的数据集中可接受的结果总数一个和处境不利的方面D.

  • PdRy0)是被拒结果(值为 0)的比例D.

  • Pd一个y1)是可接受的结果(值 1)在方面的比例D.

对于大学录取的例子,女性的人口差异是 DDd= 0.46-0.32 = 0.14。对于男士 DDa= 0.54-0.68 =-0.14。

为了排除辛普森的悖论,需要一个有条件的人口统计差异 (CDD) 指标,该指标将 DD 限制在数据集上定义子组层的属性。重组可以让人们深入了解较不受欢迎的方面造成明显人口差异的原因。典型的例子出现在伯克利入院的案例中,男子被接受的总体比率高于女性。该案例的统计数据用于 DD 的示例计算。但是,在对部门分组进行检查时,根据部门的条件,妇女的入学率显示比男子高。解释是,女性向接受率低于男性的部门提出申请。审查分组的接受率表明,对于接受率较低的部门,实际上接受女性的比率高于男子。

CDD 指标通过平均数据集属性定义的子组中发现的所有差异提供了一个单一的度量。它被定义为人口差异的加权平均值(DD)i)对于每个子组,每个子组差异按包含中的观测值数成比例加权。有条件的人口差异的公式如下:

        CDD = (1/n)*Σini *DDi

其中:

  • Σini= n 是观测值的总数,ni是每个子组的观测值数。

  • DDin=i(0)/n(0)-ni(1)/n(1)P =iRy0P)i一个y1) 是第 i 个子组的人口差异。

子组的人口差异(DD)i)是被拒绝结果的比例与每个子组接受结果的比例之间的差异。

完整数据集 DD 的二进制结果的 DD 值范围d或者对于其条件化的子组 DDi是 [-1, +1]。

  • +1:当方面没有拒绝的时候一个或子组而且不接受方面D或子组

  • 正值表明存在着人口差异作为一个方面D或子组在数据集中被拒绝的结果的比例高于接受的结果。价值越高,平面越偏爱,差异就越大。

  • 负值表示不存在人口差异的方面D或子组在数据集中所接受的结果的比例大于被拒绝结果的比例。价值越低,平面就越有利。

  • -1:当方面没有拒绝的时候D或子组而且不接受方面一个或子组

如果你不以任何条件为条件,那么如果并且仅当 DPL 为零时,CDD 才为零。

这一指标有助于探索欧盟和英国不歧视法律和判例中的直接和间接歧视概念以及客观合理的概念。有关其他信息,请参阅为什么公平性不能自动化. 本 paper 还包含伯克利招生案例的相关数据和分析,这些数据和分析显示了对部门入学率亚组的条件规定如何说明辛普森的悖论。