有条件接受的差异(DCCAC) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

有条件接受的差异(DCCAC)

该指标将观察到的标签与模型预测的标签进行比较,并评估各个方面的标签是否相同,以获得预测的积极结果。该指标接近模拟人的偏见,因为它量化了与训练数据集(标签 y)中观察到的结果(标签 y)相比,模型在某个方面预测的积极结果(标签是)多少。例如,如果在培训数据集中观察到更多的接受(积极结果),中年人群的贷款申请(方面)一个)比模型基于资格的预测与包含其他年龄组的方面相比(facet)D),这可能表明有利于中年人群的贷款批准方式存在潜在偏见。

有条件接受差异的公式:

        DCAC =a-cd

其中:

  • can=a(1)/n'a(1)是平面值 1(接受)的观察到的积极结果数量的比率一个到平面的预计积极结果(接受)数一个.

  • cdn=d(1)/n'd(1)是平面值 1(接受)的观察到的积极结果数量的比率D预计的积极结果(接受率)的数量D.

DCACC 指标可以反映出基于资格的优惠待遇的积极和负面偏见。考虑以下基于年龄的偏见对贷款接受的情况。

示例 1:正偏差

假设我们有 100 个中年人的数据集(方面)一个)和来自其他年龄组的 50 人(方面)D) 谁申请贷款,该模型建议从 Facet 开始计算 60一个还有 30 个从方面开始D获得贷款。因此,对于 DPPL 指标而言,预测的比例是公正的,但观察到的标签显示,从平面来看,70一个还有 20 个从方面D获得了贷款。换句话说,该模型向中年人提供的贷款比培训数据中观察到的标签(70/60 = 1.17)少 17%,并向其他年龄组提供的贷款比观察到的标签(20/30 = 0.67)多 33%。DCACC 值的计算得出以下结果:

        DCCAC = 70/60-20/30 = 1/2

正值表明存在对中年层面的潜在偏见一个与另一方面相比,接受率较低D比观察到的数据(被视为无偏见)表明的情况是这种情况。

示例 2:负偏差

假设我们有 100 个中年人的数据集(方面)一个)和来自其他年龄组的 50 人(方面)D) 谁申请贷款,该模型建议从 Facet 开始计算 60一个还有 30 个从方面开始D获得贷款。因此,对于 DPPL 指标而言,预测的比例是公正的,但观察到的标签显示,从平面来看 50一个还有 40 个方面D获得了贷款。换句话说,该模型向中年人提供的贷款比培训数据中观察到的标签(50/60 = 0.83)少 17%,并向其他年龄组提供的贷款比观察到的标签(40/30 = 1.33)多 33%。DCACC 值的计算得出以下结果:

        DCCAC = 50/60-40/30 = -1/2

负值表明存在对方面的潜在偏见D与中年方面相比,接受率较低一个比观察到的数据(被视为无偏见)表明的情况是这种情况。

请注意,您可以使用 DCACC 来帮助您检测人类在循环环环境中监督模型预测的潜在(无意的)偏见。例如,假设模型的预测是公正的,但最终的决定是由一个可以改变模型预测以生成新的最终版本的人(可能有额外的功能)做出的。人类的额外处理可能会无意中从一个方面拒绝不成比例的贷款。DCAC 可以帮助发现这种潜在的偏见。

二进制、多类别平面和连续标签的条件接受差异的值范围为 (-∞, +∞)。

  • 如果观察到的接受人数与预测接受量的比率相对于小平面的预测接受率,则出现正值一个高于平面的相同比率D. 这些值表明从方面来看可能存在对合格申请人的偏见一个. 比率的差异越大,明显的偏差就越极端。

  • 当观察到的接受人数与预测接受量的比率相比,将出现接近零的值一个与小平面的比率相似D. 这些值表明,预测的接受率与标签数据中观察到的值一致,而且两个方面的合格申请人也以类似的方式被接受。

  • 如果观察到的接受人数与预测接受量的比率相对于小平面的预测接受率,则会出现负值一个小于平面的比率D. 这些值表明从方面来看可能存在对合格申请人的偏见D. 比率的差异越为负面,明显的偏差就越极端。