准确度差异 (AD) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

准确度差异 (AD)

准确度差异 (AD) 指标是不同分面的预测准确度之间的差异。此指标确定模型的分类对于一个分面是否比另一个分面更准确。AD 指示一个分面是否产生更高比例的“类型 I”和“类型 II”错误。但是,它不能区分类型 I 和类型 II 错误。例如,模型对于不同的年龄人口统计可能具有相同的准确度,但对于一个基于年龄的组,错误主要为假阳性(类型 I 错误),而对于另一个组,错误主要为假阴性(类型 II 错误)。

此外,如果对中等年龄人口统计(分面 a)的信用审批的准确度要远高于其他基于年龄的人口统计(分面 d)的信用审批,则第二组中的合格申请人拒绝了信用 (FN) 的比例,或者来自该组的未限定申请人同时被拒绝了。这可能导致第二组在组内处于不合理状态,即使两个基于期限的组(由接近零的 DPPL 值指示)的所授予的借额比例几乎相同也是如此。

AD 指标的公式是分面 a、ACC 的预测准确度之间的差异a,减去分面 d、ACC 的d:

        广告 = ACCa - ACCd

其中:

  • 账户a = (TPa + TNa)/(TPa + TNa + FPa + FNa)

    • TPa 是为分面 a

    • TNa 是为分面 a 预测的实际负值

    • FPa 是为分面 a 预测的误报

    • FNa 是预测的分面 a 的假阴性值

  • 账户d = (TPd + TNd)/(TPd + TNd + FPd + FNd)

    • TPd 是为分面 d 预测的实际阳性

    • TNd 是为分面 d 预测的实际负值

    • FPd 是为分面 d 预测的误报

    • FNd 是为分面 d 预测的假阴性值

例如,假设模型批准从 100 分面 a 向 70 个申请方提供借记,并拒绝其他 30。10 不应获得该借项 (FPa) 和 60 已获得批准,应为 (TP)a) 拒绝中的 20 个被拒绝应该已被批准 (FN)a) 和 10 已正确拒绝 (TN)a)。 分面 a 的准确性如下所示:

        账户a = (60 + 10)/(60 + 10 + 20 + 10) = 0.7

接下来,假设模型批准从 100 的分面 d 向 50 个申请方提供转录,并拒绝其他 50。10 不应提供该转录 (FP)a) 和 40 个已批准,应为 (TP)a)。40 个拒绝应已批准 (FN)a) 和 10 已正确拒绝 (TN)a)。 分面 的准确性确定如下:

        账户d= (40 + 10)/(40 + 10 + 40 + 10) = 0.5

因此,准确性差异是 AD = ACCa - ACCd = 0.7 - 0.5 = 0.2。这表示对分面 d 存在偏差,因为指标是正数。

二进制和多类别分面标签的 AD 值范围为 [-1, +1]。

  • 当分面 a 的预测准确度大于分面 d 的预测准确度时,会出现正值。这意味着分面 d 会因误报 (类型 I 错误) 或假阴性 (类型 II 错误) 的某种组合而受到影响。这意味着,对于偏离的分面 d 可能会有偏差。

  • 当分面 a 的预测准确度与分面 d 的预测准确度相似时,将出现接近零的值。

  • 当分面 d 的预测准确度大于分面 a t 的预测准确度时,会出现负值。这意味着分面 会因误报 (类型 I 错误) 或假阴性 (类型 II 错误) 的某种组合而受到影响更大。这意味着 是针对首选分面 a 的偏差。