条件拒绝 (DCR) 的差异 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

条件拒绝 (DCR) 的差异

此衡量指标将观察到的标签与模型预测的标签进行比较,并评估负面结果(拒绝)的跨面是否相同。此度量接近于模拟人为偏差,因为它量化了与训练数据集(观察到的标签 y)中的标签建议相比,模型授予某个方面(预测标签 y)多少负面结果。例如,如果中年群体的贷款申请遭到更多拒绝(负面结果)(a),而不是基于资格的模型预测与包含其他年龄组的面(方面D),这可能表明拒绝贷款的方式存在潜在偏见。

有条件接受差异的公式:

        DCR = rd-ra

其中:

  • rd= nd(0)/n'd(0)是观察到的值 1(拒绝)负面结果数的比率D到预测的负面结果(拒绝)数量D.

  • ra= na(0)/n'a(0)是观测到的值 0(拒绝)负结果数的比率a设置为值 0(拒绝)的预测负结果数a.

DCR 指标可以捕获显示基于资格的优惠待遇的正负偏见。考虑以下基于年龄的拒绝贷款的偏见。

示例 1:正偏差

假设我们有 100 个中年人的数据集(面a)和 50 人来自其他年龄组(方面D)谁申请贷款,其中模型建议 60 从方面a和 30 个来自方面D被拒绝贷款。因此,预测的比例不受 DPL 度量的偏差,但观察到的标签显示 50 来自小平面a40 个来自方面D被拒绝. 换句话说,该模型拒绝从中年层面获得的贷款比培训数据所建议的标签少 17% (50/60 = 0.83),拒绝其他年龄组的贷款比观察到的标签 (40/30 = 1.33) 多 33%。DCR 值的计算可以量化-17% 和 +33% 之间的差异。

        数据转换率 = 40/30-50/60 = 1/2

示例 2:负偏差

假设我们有 100 个中年人的数据集(面a)和 50 人来自其他年龄组(方面D)谁申请贷款,其中模型建议 60 从方面a和 30 个来自方面D被拒绝贷款。因此,预测的比例不受 DPL 度量的偏差,但观察到的标签显示 70 来自面a和 20 个来自方面D被拒绝. 换句话说,该模型拒绝从中年层面提供的贷款比培训数据中观察到的标签多 17% (70/60 = 1.17),拒绝其他年龄组的贷款比观察到的标签少 33% (20/30 = 0.67)。DCR 值的计算可以量化 17% 和-33% 之间的差异。

        数据转换器 =

二进制、多分面和连续标签的条件拒绝差异值范围为 (-∞, +∞)。

  • 当观测到的拒绝次数与预测的小平面拒绝次数的比率时,会出现正值D大于小平面的比率a. 这些值表明可能对符合条件的申请人从方面的偏见D. DCR 度量值越大,表观偏差就越极端。

  • 当观测到的拒绝次数与预测小平面接受率相比的比率时,会出现接近零的值a类似于小平面的比率D. 这些值表明,预测的拒绝率与标签数据中的观测值一致,并且两个方面的合格申请人都以类似的方式被拒绝。

  • 当观测到的拒绝次数与预测的多面拒绝次数的比率时,会出现负值D小于该比率面a. 这些值表明可能对符合条件的申请人从方面的偏见a. 负 DCR 指标的幅度越大,表观偏差就越极端。