预测标签中的条件人口差异 (CDDPL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预测标签中的条件人口差异 (CDDPL)

人口统计差异度量 (DPDL) 决定了D在预测被拒绝标注中的比例大于预测接受标注。它可以比较预测的拒绝比例和预测接受率各个方面之间的差异。此度量与训练前 CDD 度量完全相同,只是根据预测标签而不是观察到的标签进行计算。此指标位于范围内 (-1, +1)。

面标签的人口差异预测公式D如下所示:

        DDPLdn'd(0)/n(0)n'd(1)/n(1)= PdR(y'0)-PdA(y'1

其中:

  • n'(0)n'a(0)+n'd(0)是小平面的预测被拒绝标注的数量aD.

  • n'(1)n'a(1)+n'd(1)是小平面的预测接受标注的数量aD.

  • PdR(y'0)是预测被拒绝标注(值 0)在小平面中的比例D.

  • PdA(y'1)是预测接受标签(值 1)在小平面中的比例D.

预测标签 (CDPDPL) 度量中的条件人口统计差异对数据集上定义子组层的属性加以条件 DPDL 条件,以排除辛普森的悖论。重新组合可以使人们深入了解造成较不受欢迎的方面明显的人口差异的原因. 典型的情况出现在伯克利招生的情况下, 男子的入学率总体上高于妇女. 但是,在对省级小组进行审查时,按部门计算,女性入学率高于男性。解释是,妇女申请的部门接受率低于男子。对分组接受率进行审查后发现, 在接受率较低的部门, 妇女的入学率实际上高于男子.

CDPDPL 度量通过对数据集属性定义的子组中发现的所有差异提供了一个度量值,方法是对它们进行平均。它被定义为预测标签中人口统计差异的加权平均值 (DDPL)i),每个子组的差异按照包含的观测值数量成比例加权。预测标签中条件人口统计差异的公式如下:

        CDDPL = (1/n)*ini *DDPLi

其中:

  • ini= n 是观测值的总数,ni是每个子组的观测值数。

  • DDPLin'i(0)/n(0)n'i(1)/n(1)= PiR(y'0)-PiA(y'1)是子组的预测标签中的人口统计差异。

因此,预测标签中的子组的人口统计差异(DDPLi)是预测拒绝标注的比例与每个子组的预测接受标注的比例之间的差值。

二进制结果、多重结果和连续结果的 DDPL 值范围为 [-1, +1]。

  • +1:当没有预测的多面拒绝标签时a或子组,并且没有预测的多面接受D或子组。

  • 正值表示预测标签中存在人口统计差异作为小面D或子组的预测拒绝标注的比例大于预测接受标注。该值越大,差异越大。

  • 接近零的值表示平均不存在人口统计差异。

  • 负值表示预测标签中存在人口统计差异a或子组的预测拒绝标注的比例大于预测接受标注。值越低,差异越大。

  • -1:当没有预测的排斥翻领时D或子组,并且没有预测的多面接受a或子组。