预测标签中的正比例差异 (DPPL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预测标签中的正比例差异 (DPPL)

预测标签 (DPPL) 指标中正比例的差异决定了模型是否对每个方面预测结果的不同。它被定义为平面积极预测比例(Y=1)之间的差异一个以及平面积极预测的比例 (Y=1)D. 例如,如果模型预测向 60% 的中年群体提供贷款(方面)一个)和 50% 的其他年龄组(方面D),它可能会对方面有偏见D. 在此示例中,您需要确定 10% 的差异对于偏见的情况来说是否重要。将 DPL 与 DPL 的比较可评估训练后最初存在于数据集中的偏差是增加还是减少模型预测。

预测标签比例差异的公式:

        DPL = q'a-q'd

其中:

  • Q 'an'a(1)/na是平面的预测比例一个他们得到了价值 1 的积极结果。在我们的例子中,预计将获得贷款的中年方面的比例。n'a(1)表示 facet 的成员数一个谁得到了值 1 和 n 的积极预测结果a是 Facet 的成员数量一个.

  • Q 'dn'd(1)/nd是平面的预测比例D他们得到了价值 1 的积极结果。在我们的例子中,预计将获得贷款的老年人和年轻人的一个方面。n'd(1)表示 facet 的成员数D谁得到了积极的预测结果和 nd是 Facet 的成员数量D.

如果 DPPL 足够接近 0,这意味着训练后人口平等已经实现。

对于二进制和多类平面标签,标准化的 DPL 值在区间 [-1, 1] 范围内。对于连续标签,值随时间间隔(-∞、+∞)而变化。

  • DPPL 值正表示该方面一个与方面相比,预计积极结果的比例更高D.

    这被称为正偏差.

  • DPPL 值接近零表示各个方面之间预计积极结果的比例更相等一个D值为零表示完美的人口平等。

  • 负 DPPL 值表示该方面D与方面相比,预计积极结果的比例更高一个. 这被称为负偏差.