查全率差异 (RD) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

查全率差异 (RD)

查全率差异 (RD) 指标是首选分面 a 和失败分面 d 之间的模型查全率差异。这些查全率中的任何差异都是一种潜在的偏差形式。查全率是真正的正率 (TPR),用于衡量模型正确预测应获得正结果的情况的频率。如果所有 y=1 大小写都正确预测为该分面的 y'=1,则查全率非常适合分面。当模型最大程度地减少称为类型 II 错误的假阴性时,查全率会更高。例如,模型正确检测到应该有多少属于两个不同组 (分面 a d) 且有资格获得借用的人员? 如果向分面 a 的借记的召回率较高,但向分面 d 的借记率较低,则此差异会针对属于分面 d 的组提供此偏差的度量。

分面 ad 的召回率差异的公式

        RD = TPa/(TP)a + FNa) - TPd/(TP)d + FNd) = TPRa - TPRd

其中:

  • TPa 是为分面 a 预测的实际阳性。

  • FNa 是为分面 a 预测的假阴性值。

  • TPd 是为分面 d 预测的实际阳性。

  • FNd 是预测的分面 d 的假阴性值。

  • TPRa = TPa/(TP)a + FNa) 是分面 a. 或其真正正率的查全率。

  • TPRd TPd/(TP)d + FNd) 是分面 d. 或其真正正率的查全率。

例如,请考虑分面 ad 的以下混淆矩阵。

首选分面的混淆矩阵
为预测分类 实际结果 0 实际结果 1 总计
0 20 5 25
1 10 65 75
总计 30 70 100
Disfared 分面 d 的混淆矩阵
d 类预测 实际结果 0 实际结果 1 总计
0 18 7 25
1 5 20 25
总计 23 27 50

查全率差异的值为 RD = 65/70 - 20/27 = 0.93 - 0.74 = 0.19,这表示对分面 d 的偏差。

对于二进制和多类别分类,分面 ad 之间的召回量差异值范围为 [-1, +1]。此指标不适用于连续标签的情况。

  • 当分面 a 的查全率高于分面 d 的查全率时,将得到正值。这表示模型找到的分面 a 的实际正例多于分面 d,后者是一种偏差形式。

  • 接近零的值表示正在比较的分面的查全率相似。这表示模型在这两个分面中找到大约相同数量的真阳性,并且没有偏差。

  • 当分面 d 的查全率高于分面 a 的查全率时,将得到负值。这表示模型找到的分面 d 的实际正例多于分面 a 的实际正例,后者是一种偏差形式。