查全率差异 (RD) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

查全率差异 (RD)

查全率差异 (RD) 指标是模型在有利分面 a 和不利分面 d 之间的查全率差异。这些查全率的任何差异都是一种潜在的偏差。查全率是真阳性率 (TPR),用于衡量模型正确预测应得到阳性结果的案例的频率。如果某一分面的所有 y=1 案例都正确预测为 y'=1,则该分面的查全率是完美的。当模型尽可能地减少假阴性(即 II 型错误)时,查全率会更高。例如,模型正确检测了两个不同组(分面 ad)中有多少人本应有资格获得贷款? 如果向分面 a 提供贷款的查全率高,而向分面 d 提供贷款的查全率低,那么差异就可用来衡量这种不利于分面 d 中组的偏差。

分面 ad 查全率差异的公式:

        RD = TPa/(TPa + FNa) - TPd/(TPd + FNd) = TPRa - TPRd

其中:

  • TPa 是分面 a 的真阳性预测值。

  • FNa 是分面 a 的假阴性预测值。

  • TPd 是分面 d 的真阳性预测值。

  • FNd 是分面 d 的假阴性预测值。

  • TPRa = TPa/(TPa + FNa) 是分面 a 的查全率或其真阳性率。

  • TPRd TPd/(TPd + FNd) 是分面 d 的查全率或其真阳性率。

例如,考虑分面 ad 的以下混淆矩阵。

有利分面 a 的混淆矩阵
类 a 预测 实际结果 0 实际结果 1 总计
0 20 5 25
1 10 65 75
总计 30 70 100
不利分面 d 的混淆矩阵
类 d 预测 实际结果 0 实际结果 1 总计
0 18 7 25
1 5 20 25
总计 23 27 50

查全率差异值为 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19,这表明存在不利于分面 d 的偏差。

对于二进制和多类别分类,分面 ad 之间的查全率差异值范围为 [-1, +1]。此指标对连续标签不可用。

  • 当分面 a 的查全率高于分面 d 时,就会获得正值。这表明该模型发现分面 a 的真阳性多于分面 d 的真阳性,这是一种形式的偏差。

  • 接近零的值表示所比较的分面的查全率相似。这表明该模型在这两个分面发现的真阳性数量大致相同,没有偏差。

  • 当分面 d 的查全率高于分面 a 时,就会获得负值。这表明该模型发现分面 d 的真阳性多于分面 a 的真阳性,这是一种形式的偏差。