预测标签中的条件人口统计差异 (CDDPL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预测标签中的条件人口统计差异 (CDDPL)

人口差异指标 (DDPL) 决定了是否面D预计被拒的标签比预计可接受的标签的比例要大。它可以对预测的拒绝比例和预测接受率的差异进行比较。此指标与预训练 CDD 指标完全相同,不同之处在于它是根据预测标签而不是观察到的标签计算的。此指标位于范围 (-1, +1)。

平面标签的人口差异预测公式D如下所示:

        DDPLdn=d(0)/n'(0)n'd(1)/n'(1)P =dR(y)0P)-Pd一个(y)1

其中:

  • n'(0)n=a(0)+ n'd(0)是刻面的预计拒绝标签的数量一个D.

  • n'(1)n=a(1)+ n'd(1)是刻面的预计可接受标签的数量一个D.

  • PdR(y)0) 是平面中预测被拒的标签(值 0)的比例D.

  • Pd一个(y)1) 是平面中预测的可接受标签(值 1)的比例D.

为了排除辛普森的悖论,需要预测标签 (CDDPL) 指标中的有条件人口统计差异,该指标将 DDPL 限制在定义数据集上的子组层的属性上。重组可以让人们深入了解较不受欢迎的方面造成明显的人口差异的原因。典型的例子出现在伯克利入院的案例中,男子被接受的总体比率高于女性。但是,当对部门分组进行检查时,各部门的女性入学率都高于男性。解释是,女性向接受率低于男性的部门提出申请。审查分组接受率表明,在接受率较低的部门,实际上接受女性的比率高于男子。

CDDPL 指标通过平均数据集属性定义的子组中发现的所有差异提供了一个单一的度量。它被定义为预测标签(DDPL)中人口差异的加权平均值i)对于每个子组,每个子组差异按包含中的观测值数成比例加权。预测标签中有条件的人口差异的公式如下:

        CDDPL = (1/n)*Σini *DDPLi

其中:

  • Σini= n 是观测值的总数,ni是每个子组的观测值数。

  • DDPLin=i(0)/n(0)n'i(1)/n(1)P =iR(y)0P)-Pi一个(y)1)是该子组的预测标签中的人口差异。

因此,预测标签(DDPL)中一个子组的人口统计差异i) 是预测拒绝的标签比例与每个子组的预测可接受标签的比例之间的差异。

二进制结果、多类别和连续结果的 DDPL 值范围为 [-1, +1]。

  • +1:当平面没有预测的拒绝标签时一个或子组,而且没有预计接受小面D或子组。

  • 正值表示作为方面的预测标签存在人口差异D或子组的预测拒绝标签的比例大于预测的可接受标签的比例。该值越高,差异越大。

  • 接近零的值表明平均来说没有人口差异。

  • 负值表示作为方面的预测标签存在人口差异一个或子组的预测拒绝标签的比例大于预测的可接受标签的比例。值越低,差异就越大。

  • -1:当面面没有预测的拒绝翻领时D或子组,而且没有预计接受小面一个或子组。