

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 查全率差异 (RD)
<a name="clarify-post-training-bias-metric-rd"></a>

查全率差异 (RD) 指标是模型在有利分面 *a* 和不利分面 *d* 之间的查全率差异。这些查全率的任何差异都是一种潜在的偏差。查全率是真阳性率 (TPR)，用于衡量模型正确预测应得到阳性结果的案例的频率。如果某一分面的所有 y=1 案例都正确预测为 y'=1，则该分面的查全率是完美的。当模型尽可能地减少假阴性（即 II 型错误）时，查全率会更高。例如，模型正确检测了两个不同组（分面 *a* 和 *d*）中有多少人本应有资格获得贷款？ 如果向分面 *a* 提供贷款的查全率高，而向分面 *d* 提供贷款的查全率低，那么差异就可用来衡量这种不利于分面 *d* 中组的偏差。

分面 *a* 和 *d* 查全率差异的公式：

        RD = TPa/(TPa \+ FNa) - TPd/(TPd \+ FNd) = TPRa - TPRd 

其中：
+ TPa 是分面 *a* 的真阳性预测值。
+ FNa 是分面 *a* 的假阴性预测值。
+ TPd 是分面 *d* 的真阳性预测值。
+ FNd 是分面 *d* 的假阴性预测值。
+ TPRa = TPa/(TPa \+ FNa) 是分面 *a* 的查全率或其真阳性率。
+ TPRd TPd/(TPd \+ FNd) 是分面 *d* 的查全率或其真阳性率。

例如，考虑分面 *a* 和 *d* 的以下混淆矩阵。

有利分面 a 的混淆矩阵


| 类 a 预测 | 实际结果 0 | 实际结果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 20 | 5 | 25 | 
| 1 | 10 | 65 | 75 | 
| Total | 30 | 70 | 100 | 

不利分面 d 的混淆矩阵


| 类 d 预测 | 实际结果 0 | 实际结果 1 | Total  | 
| --- | --- | --- | --- | 
| 0 | 18 | 7 | 25 | 
| 1 | 5 | 20 | 25 | 
| Total | 23 | 27 | 50 | 

查全率差异值为 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19，这表明存在不利于分面 *d* 的偏差。

对于二进制和多类别分类，分面 *a* 和 *d* 之间的查全率差异值范围为 [-1, \+1]。此指标对连续标签不可用。
+ 当分面 *a* 的查全率高于分面 *d* 时，就会获得正值。这表明该模型发现分面 *a* 的真阳性多于分面 *d* 的真阳性，这是一种形式的偏差。
+ 接近零的值表示所比较的分面的查全率相似。这表明该模型在这两个分面发现的真阳性数量大致相同，没有偏差。
+ 当分面 *d* 的查全率高于分面 *a* 时，就会获得负值。这表明该模型发现分面 *d* 的真阳性多于分面 *a* 的真阳性，这是一种形式的偏差。