预测标签中正比例的差异 (DPPL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

预测标签中正比例的差异 (DPPL)

预测标签中正比例的差异 (DPPL) 指标可确定模型对每个分面的结果预测是否不同。其定义是分面 a 的阳性预测值 (y’ = 1) 比例与分面 d 的阳性预测值 (y’ = 1) 比例之差。例如,如果模型预测向 60% 的中年组(分面 a)和 50% 的其他年龄组(分面 d)发放贷款,则可能存在不利于分面 d 的偏差。在本例中,您必须确定这 10% 的差异是否对偏差案例有实质性影响。将 DPL 与 DPPL 进行比较可以评估数据集中最初存在的偏差在训练后的模型预测中是增加还是减少。

预测标签比例差异的公式:

        DPPL = q'a - q'd

其中:

  • q'a = n'a(1)/na 是分面 a 中得到值为 1 的阳性结果的预测比例。在我们的例子中,是预计获得贷款的中年组分面的比例。这里 n'a(1) 表示分面 a 中获得值为 1 的阳性预测结果的成员数,na 表示分面 a 的成员数。

  • q'd = n'd(1)/nd 是分面 d 中获得值为 1 的阳性结果的预测比例。在我们的例子中,有一部分老年人和年轻人预计会获得贷款。这里 n'd(1) 表示分面 d 中获得阳性预测结果的成员数,nd 表示分面 d 的成员数。

如果 DPPL 足够接近于 0,则表示已经实现了训练后人口统计均等

对于二进制和多类别分面标签,标准化 DPL 值范围在 [-1, 1] 区间内。对于连续标签,值在区间 (-∞, +∞) 内变化。

  • 正 DPPL 值表示与分面 d 相比,分面 a 的预测阳性结果比例更高。

    这称为正偏差

  • DPPL 值接近于零表示分面 a 和分面 d 之间的预测阳性结果比例更加均等,而值为零则表示完全的人口统计均等。

  • 负 DPPL 值表示与分面 a 相比,分面 d 的预测阳性结果比例更高。这称为负偏差