差别影响 (DI) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

差别影响 (DI)

预测标签中正比例的差异指标可通过比率的形式来评估。

预测标签中正比例的比较指标可通过比率的形式来评估,而不是像预测标签中正比例的差异 (DPPL) 那样用差值来评估。差别影响 (DI) 指标定义为分面 d 的阳性预测值 (y' = 1) 比例与分面 a 的阳性预测值 (y' = 1) 比例之比。例如,如果模型预测向 60% 的中年组(分面 a)和 50% 的其他年龄组(分面 d)发放贷款,则 DI = .5/.6 = 0.8,这表明存在正偏差,并对分面 d 所代表的其他年龄组产生不利影响。

预测标签比例比率的公式:

        DI = q'd/q'a

其中:

  • q'a = n'a(1)/na 是分面 a 中得到值为 1 的阳性结果的预测比例。在我们的例子中,是预计获得贷款的中年组分面的比例。这里 n'a(1) 表示分面 a 中获得阳性预测结果的成员数,na 表示分面 a 的成员数。

  • q'd = n'd(1)/nd 是分面 d 中获得值为 1 的阳性结果的预测比例。在我们的例子中,有一部分老年人和年轻人预计会获得贷款。这里 n'd(1) 表示分面 d 中获得阳性预测结果的成员数,nd 表示分面 d 的成员数。

对于二进制、多类别分面和连续标签,DI 值的范围在 [0, ∞) 区间内。

  • 值小于 1 表示分面 a 的预测阳性结果比例高于分面 d。这称为正偏差

  • 值为 1 表示人口统计均等。

  • 值大于 1 表示分面 d 的预测阳性结果比例高于分面 a。这称为负偏差