拒绝率 (DRR) 差异 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

拒绝率 (DRR) 差异

拒绝率 (DRR) 指标的差异是真负 (TN) 预测与观察到的分面 ad 的负 (TN + FN) 的比率之差。此指标测量用于预测来自这两个分面的拒绝的模型的精度差异。精度衡量由模型确定的未限定候选项池中的非限定候选项所占的比例。如果用于预测非限定性应用者的模型精度在分面之间存在差异,则这是一个偏差,其幅度由 DRR 测量。

分面 ad 之间的拒绝率差异的公式:

        DRR = TNd/(TN)d + FNd) - TNa/(TN)a + FNa)

其中:

  • TNd 是为分面 d 预测的实际负数。

  • FNd 是为分面 d 预测的假阴性值。

  • TPa 是为分面 a 预测的实际负数。

  • FNa 是预测的分面 a 的假阴性值。

例如,假设模型拒绝 100 个中间年龄的申请方(分面 a)申请(预测的负标签),其中 80 个实际上是非限定的(观察到的负标签)。此外,假设模型接受 50 个来自其他年龄人口统计(分面 d)的申请方,申请方需要获得(预测的负标签),其中,实际上只有 40 个申请方是非限定的(观察到的负标签)。然后,DRR = 40/50 - 80/100 = 0,因此,未指定偏移。当 DAR 和 DDR 都为零时,它满足称为均衡奇数的条件。

二进制、多类别分面和连续标签的 DDR 的值范围为 [-1, +1]。

  • 当对于分面 d,预测负数(拒绝)与观察到的负数结果(不符合条件的申请方)的比率大于对于分面 a 的相同比率时,会出现正值。这些值表示可能针对首选分面的偏差这是由于分面 a 中出现了相对更多的假阴性造成的。比率的差异越大,明显偏移越极端。

  • 当预测负值 (拒绝) 与观察到的分面 ad 的负结果 (不符合条件的申请方) 的比率具有类似值时,会出现接近零的值,这表示模型预测的负结果的标签具有相同精度。

  • 当预测负值(拒绝)与观察到的分面 a 的负结果(不符合条件的申请方)的比率大于分面 d 的比率时,会出现负值。这些值表示因分面 d 中出现相对更多的误报而导致对“disfarod”分面 d 的偏差。比率差异越负,明显偏移越极端。