预测标签中的条件人口差异 (CDDPL) - 亚马逊 SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预测标签中的条件人口差异 (CDDPL)

人口差异指标 (DDPL) 决定了 facet d 中预测的被拒绝标签的比例是否大于预测的接受标签的比例。它可以比较各个方面的预测拒绝比例和预测的接受比例的差异。该指标与训练前 CDD 指标完全相同,不同之处在于它是根据预测的标签而不是观察到的标签计算的。该指标在 (-1, +1) 范围内。

分面 d 标签的人口差异预测公式如下:

        DDPLd = n'd (0) /n '(0)-n'd (1) /n' (1) = Pd R (y' 0)-Pd A (y' 1)

其中:

  • n' (0) = n'a (0) + n'd (0) 是分面 ad 的预计被拒绝标签的数量。

  • n' (1) = n'a (1) + n'd (1) 是分面 ad 的预计可接受标签数量。

  • Pd R (y'y 0) 是刻面 d 中预测的被拒绝标签(值 0)的比例。

  • Pd A (y' 1) 是刻面 d 中预测可接受的标签(值 1)的比例。

要排除辛普森的悖论,就需要在预测标签 (CDDPL) 指标中采用有条件的人口差异,将DDPL限制在定义数据集子组层的属性上。重组可以让人们深入了解处于不利地位的方面存在明显的人口差异的原因。典型案例出现在伯克利的入学案例中,男性的录取率总体上高于女生。但是,在对部门分组进行检查时,显示按部门划分,女性的录取率高于男性。原因是,女性申请的部门录取率低于男性。对亚组接受率的研究表明,在录取率较低的部门中,女性的录取率实际上高于男性。

CDDPL 指标通过求平均值为数据集的属性定义的子组中发现的所有差异提供单一度量。它被定义为每个子组的预测标签 (DDPLi) 中人口差异的加权平均值,每个子组差异与包含的观测值数量成比例加权。预测标签中条件人口差异的公式如下:

        CDDPL = (1/n)*i ni* DDPLi

其中:

  • ini = n 是观测值总数,ni 是每个子组的观测值数。

  • DDPLi = n'i (0) /n (0)-n'i (1) /n (1) = Pi R (y' 0)-Pi A (y' 1) 是该子组预测标签中的人口差异。

因此,预测标签 (DDPLi) 中子组的人口差异是预测的拒绝标签比例与每个子组的预测可接受标签比例之间的差异。

二进制、多类别和连续结果的 DDPL 值范围为 [-1, +1]。

  • +1:当facet a 或子组没有预测的拒绝标签且没有预知的分面 d 或子组的接受度时。

  • 正值表明预测标签存在人口差异,因为分面 d 或子组的预测拒绝标签的比例大于预测的可接受标签的比例。值越高,差异越大。

  • 接近零的值表示平均没有人口差异。

  • 负值表示预测标签存在人口差异,因为分面 a 或子组的预测拒绝标签比例大于预测的可接受标签的比例。值越低,差异越大。

  • -1:当小面 d 或子组没有预测的排斥翻转以及分面 a 或子组没有预测的接受率时。