有条件拒绝(DCR)的差异 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

有条件拒绝(DCR)的差异

此指标将观察到的标签与模型预测的标签进行比较,并评估负面结果(拒绝)的各个方面是否相同。该指标接近模拟人的偏见,因为它量化了与训练数据集中标签建议的建议相比,模型赋予某个方面的负面结果(预测标签 y)的数量(预测标签是)多少。例如,如果对中年人群的贷款申请有更多的拒绝(负面结果)(方面)一个)比模型基于资格的预测与包含其他年龄组的方面相比(facet)D),这可能表明,拒绝贷款的方式可能存在偏见,而这种贷款偏向于中年人群而不是其他群体。

有条件接受差异的公式:

        DCR =d-ra

其中:

  • rdn=d(0)/n'd(0)是平面值 0(拒绝)的观察到的负面结果数的比率D到预计的负面结果(拒绝)数D.

  • ran=a(0)/n'a(0)是平面值 0(拒绝)的观察到的负面结果数的比率一个转换为平面值 0(拒绝)的预计负面结果数一个.

DCR 指标可以反映出基于资格的优惠待遇的积极和负面偏见。考虑以下基于年龄的偏见对拒绝贷款的情况。

示例 1:正偏差

假设我们有 100 个中年人的数据集(方面)一个)和来自其他年龄组的 50 人(方面)D) 谁申请贷款,该模型建议从 Facet 开始计算 60一个还有 30 个从方面开始D被拒绝贷款。因此,预测的比例不受 DPPL 指标的偏差,但观察到的标签显示,从平面来看,50一个还有 40 个方面D被拒绝。换句话说,该模型拒绝了来自中年层面的贷款,比培训数据中观察到的标签(50/60 = 0.83)多 17%,拒绝其他年龄组的贷款比观察到的标签(40/30 = 1.33)少 33%。DCR 值量化了各个方面之间观察到的拒绝率与预测拒绝率之间的比率的这种差异。正值表明,与其他群体相比,与观察到的数据(视为无偏见)表明的情况相比,有利于拒绝率较低的中年人群的潜在偏见。

        DCR = 40/30-50/60 = 1/2

示例 2:负偏差

假设我们有 100 个中年人的数据集(方面)一个)和来自其他年龄组的 50 人(方面)D) 谁申请贷款,该模型建议从 Facet 开始计算 60一个还有 30 个从方面开始D被拒绝贷款。因此,预测的比例不受 DPPL 指标的偏差,但观察到的标签显示,从平面开始显示 70一个还有 20 个从方面D被拒绝。换句话说,该模型拒绝的中年贷款比培训数据中观察到的标签(70/60 = 1.17)减少 17%,拒绝了其他年龄组的贷款比观察到的标签(20/30 = 0.67)多 33%。负值表示存在有利于小面积的潜在偏见一个与中年方面相比,拒绝率更低一个比观察到的数据(被视为无偏见)表明的情况是这种情况。

        DCR = 20/30-70/60 = -1/2

二进制、多类别方面和连续标签的条件拒绝差异的值范围为 (-∞, +∞)。

  • 如果观察到的拒绝次数与预计拒绝的比率为准,则会出现正值D对于小平面的比率大于该比率一个. 这些值表明从方面来看可能存在对合格申请人的偏见一个. DCR 指标的值越大,明显的偏差就越极端。

  • 如果观察到的拒绝次数与预测接受量的比率相比,将出现接近零的值一个与小平面的比率相似D. 这些值表明,预计的拒绝率与标签数据中观察到的值一致,两个方面的合格申请人也以类似的方式被拒绝。

  • 如果观察到的拒绝次数与预计拒绝的比率对小平面的预测拒绝的比率,则会出现负值D小于该比率方面一个. 这些值表明从方面来看可能存在对合格申请人的偏见D. 负 DCR 指标的幅度越大,明显的偏差就越极端。