预测标签中正比例的差异 (DPPL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预测标签中正比例的差异 (DPPL)

预测标签 (DPPL) 指标中正比例的差异决定了模型对每个方面的结果的预测是否不同。它被定义为分面 a 的正面预测比例(y'= 1)与分面 d 的正向预测比例(y' = 1)之间的差值。例如,如果模型预测向60%的中年群体(facet a)和50%的其他年龄组(facet d)提供贷款,则可能偏向facet d。在此示例中,您必须确定 10% 的差异对偏差情况是否重要。将 DPL 与 DPPL 进行比较可评估训练后模型预测中最初存在于数据集中的偏差是增加还是减少。

预测标签比例差异的公式:

        DPPL = q'-q' a d

其中:

  • q' a = n' a (1) /n a 是分面 a 中获得值 1 的正结果的预测比例。在我们的示例中,中年人中预计会获得贷款的比例。这里 n' a (1) 表示分面 a 中获得值 1 的正预测结果的成员数量,n a 表示小面 a 的成员数量。

  • q' d = n' d (1) /n d 是分面 d 中获得值 1 的正结果的预测比例。在我们的例子中,一部分老年人和年轻人预计会获得贷款。这里 n' d (1) 代表小面 d 中获得正预期结果的成员数量,n d 表示小面 d 的成员数量。

如果 DPPL 足够接近 0,则表示训练后的人口均等性已经实现

对于二进制和多类别刻面标签,标准化 DPL 值的范围在 [-1,1] 之间。对于连续标签,值随间隔(-∞、+∞)而变化。

  • 正的 DPPL 值表明,与小面 d 相比,小面 a 的预期阳性结果比例更高。

    这被称为正偏见

  • DPPL 值接近零表示方面 ad 之间预测的积极结果的比例更相等,零值表示完美的人口均等。

  • 负的 DPPL 值表明,与分面 a 相比,分面 d 在预测的阳性结果中所占的比例更高。这被称为负偏见