条件人口差异 (CDD) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

条件人口差异 (CDD)

人口统计差异度量 (DD) 确定在数据集中被拒绝结果的比例是否大于接受的结果。例如,在大学招生的情况下,如果女申请人占被拒绝的申请人的 60%,而且只占被接受申请人的 50%,我们认为人口差异因为拒绝妇女的比率超过了她们被接受的比率.

不太受欢迎的方面的人口差距公式D如下所示:

        DDd= nd(0)/n(0)-nd(1)/n(1)= PdR(y0)-PdA(y1

其中:

  • n(0)= na(0)+nd(0)是数据集中被拒绝结果的数量。

  • n(1)= na(1)+nd(1)是数据集中可接受结果的数量。

  • PdR(y0)是被拒绝结果(值为 0)在面上的比例D.

  • PdA(y1)是接受结果(值 1)在方面的比例D.

对于大学录取示例,人口统计差距为 DD = 0.6-0.5 = 0.1。

为了排除辛普森的悖论,需要一个条件人口统计差异 (CDD) 衡量指标,该指标在数据集上定义子组层的属性上对 DD 加以条件。重新组合可以使人们深入了解造成较不受欢迎的方面明显的人口差异的原因. 典型的情况出现在伯克利招生的情况下, 男子的入学率总体上高于妇女. 然而,在对省级小组进行审查时,显示按部门划分的女性入学率高于男性。解释是,妇女申请的部门接受率低于男子。对分组接受率的审查表明, 在接受率较低的部门, 妇女的入学率实际上高于男子.

CDD 度量通过对数据集的属性定义的子组中发现的所有差异提供一个单一度量值,方法是对它们进行平均。它被定义为人口差异的加权平均值 (DDi),每个子组的差异按照包含的观测值数量成比例加权。有条件人口差异的公式如下:

        CDD = (1/n)*ini *DDi

其中:

  • ini= n 是观测值的总数,ni是每个子组的观测值数。

  • DDi= ni(0)/n(0)-ni(1)/n(1)= PiR(y0)-PiA(y1)是第 i 个子组的人口统计差异。

一个子组的人口统计差异 (DDi)是每个子组被拒绝结果的比例和接受结果的比例之间的差值。

二进制结果的 DD 值范围为 (-1, +1)。

  • +1:当切面没有拒绝时a或子组,并且没有接受D或子组

  • 正值表示存在人口统计差异D或子组在数据集中的被拒绝结果中的比例小于接受的结果。该值越大,差异越大。

  • 负值表示存在人口统计差异a或子组在数据集中的被拒绝结果中的比例大于接受的结果。值越低,差异越大。

  • -1:当切面没有拒绝时D或子组,并且没有接受a或子组

如果你没有任何条件,那么 CDD 在并且仅当 DPL 为零时。

这一衡量标准有助于探讨直接和间接歧视的概念以及欧盟和联合王国不歧视法律和判例中的客观理由。有关更多信息,请参阅为什么公平无法实现自动化.