预测标签中的有条件人口统计不一致 (CDDPL) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预测标签中的有条件人口统计不一致 (CDDPL)

人口统计不一致性指标 (DDPL) 确定分面 d 相比预测的可接受标签,预测拒绝的标签比例是否大于预测的接受的标签。它支持跨分面比较预测拒绝比例和预测接受比例的差异。此指标与预训练 CDD 指标完全相同,只不过它是根据预测标签而不是观察到的标签计算的。此指标位于 (-1+1) 范围内。

分面 d 标签的人口统计不一致预测的公式如下所示:

        DDPLd = n'd (0/n'(0) - n'd (1)/n'(1) = Pd R(y'0)- PdA(y'1)

其中:

  • n'(0) = n'a(0) + n'd(0) 是分面 ad 的预测已拒绝标签数。

  • n'(1) = n'a(1) + n'd(1) 是分面 ad 的预测可接受标签的数量。

  • Pd R(y'0) 是分面 d 中预测的拒绝标签(值 0)的比例。

  • Pd A(y'1) 是预测的可接受标签(值 1)在分面 d 中的比例。

需要预测标签 (CDDPL) 的条件人口统计不一致性指标,该指标在定义数据集的子组子集的属性上限制 DDPL,以排除 Simpson 的异常。重新分组可以提供对不太常用的分面明显人口统计差异的原因的见解。在 Berkeley 准入案例中,接受男性的总体比率高于女性。但是,在检查部门子组时,按部门显示女性的准入率高于男性。解释是,女性已应用于接受率低于男性的部门。检查子组接受率表明,对于接受率较低的部门,实际接受女性的速率高于男性。

CDDPL 指标通过对数据集属性定义的子组中的所有差异取平均值,为这些差异提供单个度量。它定义为预测标签 (DDPL) 中人口统计差异的加权平均值。i) ,每个子组的差异与 中包含的观察数成比例加权。预测标签中的条件人口统计不一致的公式如下所示:

        CDDPL = (1/n)*ini *DDPLi

其中:

  • ini = n 是总观察次数,ni是每个子组的观察次数。

  • DDPLi = n'i (0/n(0) - n'i (1)/n(1) = Pi R(y'0)- Pi A(y'1) 是子组的预测标签中的人口统计差异。

因此,预测标签 (DDPL) 中子组的人口统计差异i) 是预测的拒绝标签比例与每个子组的预测接受标签比例之间的差值。

二进制、多类别和连续结果的 DDPL 值范围为 [-1,+1]。

  • +1:对于分面 a 或子组没有预测拒绝标签,而 分面 d 或子组没有预测接受项。

  • 正值表示预测的标签中存在人口统计不一致,因为分面 d 或子组具有与预测的可接受标签相比更大比例的预测被拒绝的标签。该值越大,差值越大。

  • 值接近零表示平均不存在人口统计差异。

  • 负值表示预测标签中存在人口统计不一致,因为分面 a 或子组具有与预测的可接受标签相比,较大比例的预测拒绝标签。该值越小,差异越大。

  • -1:对于分面 d 或子组,没有预测的拒绝人脸,对于分面 a 或子组没有预测的接受人脸。