衡量训练后数据和模型偏差 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

衡量训练后数据和模型偏差

亚马逊 SageMaker 澄清提供了 11 个培训后数据和模型偏差指标,以帮助量化各种公平概念。这些概念不能同时满足,选择取决于所分析的潜在偏见的案例的具体情况。其中大多数指标是从不同人口群体的二元分类混淆矩阵中获取的数字的组合。由于公平性和偏见可以通过广泛的指标来定义,因此需要人工判断才能理解和选择哪些指标与个人使用案例相关,客户应咨询适当的利益相关者,以确定适当的应用程序的公平度量标准。

我们使用以下符号来讨论偏差指标。此处描述的概念模型用于二进制分类,其中事件被标记为样本空间中只有两种可能的结果,称为正(值为 1)和负(值为 0)。这个框架通常可以直接扩展到多类别分类,或者在需要时可扩展到涉及持续有价值结果的情况。在二进制分类案例中,正标签和负面标签将分配给原始数据集中记录的结果,以获取受欢迎的方面一个而且对于一个不喜欢的方面D. 这些标签 y 被称为观察标签将它们与预测的标签'是由机器学习模型在机器学习生命周期的训练或推断阶段分配的。这些标签用于定义概率分布 Pa(y) 和 Pd(y) 他们各自的方面结果。

  • 标签:

    • y 表示训练数据集中事件结果的 n 个观测标签。

    • y 表示经过训练的模型对数据集中 n 个观测到的标签的预测标签。

  • 结果:

    • 样本的积极结果(值为 1),例如申请接受。

      • n(1)是观察到的积极结果(接受)标签的数量。

      • n'(1)是积极结果(接受)的预计标签数量。

    • 样本的负面结果(值为 0),例如申请拒绝。

      • n(0)是观察到的负面结果(拒绝)标签的数量。

      • n'(0)是负面结果(拒绝)的预计标签数量。

  • 分面值:

    • 特点一个— 定义偏见偏向的人口群体的功能值。

      • na是偏爱的小面值观察到的标签数量:na=a(1)+ na(0)价值方面的正面和负面观察到的标签的总和一个.

      • n'a是偏爱的刻面值的预测标签数量:n'an'a(1)+ n'a(0)面值的正面和负面预测结果标签的总和一个. n'a=a.

    • 特点D— 定义偏向不利的人口群体的功能值。

      • nd是不喜欢的小面值观察到的标签数量:nd=d(1)+ nd(0)小平面值观测到的正值和负面标签的总和D.

      • n'd是不喜欢的平面值的预测标签数量:n'dn'd(1)+ n'd(0)小面值的正值和负面预测标签的总和D. n'd=d.

  • 标记的小面数据结果的概率分布:

    • Pa(y) 是刻面观测到的标签的概率分布一个. 对于二进制标记的数据,此分布由刻面样本数量的比率给出一个对总数标记为积极结果,Pa(y)1n) =a(1)/na,以及结果为负的样本数量与总数之比,Pa(y)0n) =a(0)/na.

    • Pd(y) 是刻面观测到的标签的概率分布D. 对于二进制标记的数据,此分布由平面中的样本数量给出D对总数标记为积极结果,Pd(y)1n) =d(1)/nd,以及结果为负的样本数量与总数之比,Pd(y)0n) =d(0)/nd.

下表包含快速指导的备忘单以及训练后偏差指标的链接。

训练后偏差指标
训练后偏差指标 描述 例如问题 解释指标值
预测标签中的正比例差异 (DPPL) 衡量偏爱方面之间积极预测比例的差异一个和不喜欢的方面D.

在预测的积极结果中,人口群体之间是否存在不平衡,这可能表明偏见?

标准化二进制和多类别平面标签的范围:[-1, +1]

连续标签的范围:(-∞, +∞)

解释:

  • 正值表示偏爱的方面一个预计的积极结果的比例较高。

  • 接近零的值表示各个方面之间的预测积极结果的比例更为相等。

  • 负值表示不喜欢的方面D预计的积极结果的比例较高。

不同的影响力 (DI) 衡量预测标签在受欢迎的平面中的比例一个和不喜欢的方面D. 在预测的积极结果中,人口群体之间是否存在不平衡,这可能表明偏见?

标准化二进制、多类别平面和连续标签的范围:[0, ∞)

解释:

  • 值小于 1 表示偏爱的方面一个预计的积极结果的比例较高。

  • 值为 1 表示我们有人口统计平等。

  • 值大于 1 表示不喜欢的方面D预计的积极结果的比例较高。

有条件接受的差异(DCCAC) 将观察到的标签与模型预测的标签进行比较,并评估预测的积极结果(接受率)的各个方面是否相同。 与基于资格的另一个年龄组相比,一个年龄组接受贷款申请的人数是否超过预期的多或少?

二进制、多类别平面和连续标签的范围:(-∞, +∞)。

  • 正值表明从不受欢迎的方面可能对合格申请人存在偏见D.

  • 接近零的值表明,两个方面的合格申请人也以类似的方式被接受。

  • 负值表明从受欢迎的方面可能存在对合格申请人的偏见一个.

有条件拒绝(DCR)的差异 将观察到的标签与模型预测的标签进行比较,并评估负面结果(拒绝)的各个方面是否相同。 与基于资格的另一个年龄组相比,一个年龄组的贷款申请被拒绝是多或少于预期的? 二进制、多类别平面和连续标签的范围:(-∞, +∞)。
  • 正值表明从不受欢迎的方面可能对合格申请人存在偏见D.

  • 接近零的值表明,两个方面的合格申请人也以类似的方式被拒绝。

  • 负值表明从受欢迎的方面可能存在对合格申请人的偏见一个.

召回差异 (RD) 比较模型的回忆以获得青睐和不受欢迎的方面。 由于模型与另一个年龄组相比,一个年龄组的召回率更高,是否存在基于年龄的偏见?

二进制和多类别分类的范围:[-1, +1]。

  • 积极的价值表明该模型发现了更多的真正积极因素一个而且对不受欢迎的方面有偏见D.

  • 接近零的值表明,该模型在两个方面都发现了大约相同数量的真正阳性,并且没有偏见。

  • 负值表明该模型发现了更多的真正积极因素D而且对偏爱的方面有偏见一个.

接受率的差异 (DAR) 衡量受欢迎和不受欢迎的方面之间观察到的积极结果(TP)与预测阳性(TP + FP)的比率的差异。 在预测所有年龄组合格申请人的贷款接受情况时,模型是否具有同等的精确度? 二进制、多类别平面和连续标签的范围为 [-1, +1]。
  • 正值表示可能存在对方面的偏差D原因是在不受欢迎的方面发生了相对更多的误报D.

  • 接近零的值表示模型正在以同等的精确度预测两个方面的积极结果(接受率)的观测标签。

  • 负值表示对平面可能存在偏差一个是由于偏爱的方面出现了相对更多的误报一个.

拒绝率的差异 (DRR) 衡量观察到的负面结果(TN)与预测的负面因素(TN + FN)之间的比率之间的差异。 在预测所有年龄组的不合格申请人的贷款拒绝时,模型是否具有同等的精确度? 二进制、多类别平面和连续标签的范围为 [-1, +1]。
  • 正值表示偏差可能是由于偏爱的方面出现相对较多的虚假负面而造成的偏见一个.

  • 接近零的值表示模型对两个方面的负面结果(拒绝)的观察标签进行了同等精确的预测。

  • 负值表示可能是由于不受欢迎的方面出现相对较多的虚假负面引起的偏见D.

准确度差异 (AD) 衡量偏好和不受欢迎的方面的预测准确度之间的差异。 该模型是否准确地预测所有人口群体的应用程序的标签? 二进制和多类平面标签的范围为 [-1, +1]。
  • 正值表示该方面D更多的是误报(I 类错误)或假底片(II 类错误)的组合。这意味着对不受欢迎的方面存在潜在的偏见D.

  • 小平面的预测准确度时,将出现接近零的值一个类似于 FacetD.

  • 负值表示该方面一个更多的是误报(I 类错误)或假底片(II 类错误)的组合。这意味着对偏爱的方面存在偏见一个.

待遇平等(TE) 衡量偏爱和不受欢迎的方面之间的误报与假负面之间的差异。 在贷款申请中,在所有年龄段的人口统计数据中,误报与虚假负面的相对比是否相同? 二进制和多类平面标签的范围:(-∞, +∞)。
  • 当面的误报与假负面的比率时,会出现正值一个比方面还要大D.

  • 当面的误报与假负面的比率时,将出现接近零的值一个类似于 FacetD.

  • 当面的误报与假负面的比率时,会出现负值一个对于方面来说还不到这一点D.

预测标签中的条件人口统计差异 (CDDPL) 衡量各个方面之间的预测标签之间的差异,但也可以按子组进行衡量。 一些人口群体对贷款申请结果的拒绝比例是否超过接受贷款的比例?

二进制结果、多类别和连续结果的 CDDPL 值范围:[-1, +1]

  • 正值表示一种结果,其中面D被拒绝超过接受。

  • 接近零表示平均来说没有人口差异。

  • 负值表示一种结果一个被拒绝超过接受。

反事实翻转(FT) 检查小平面的每个成员D并评估是否有类似的 FACET 成员一个有不同的模型预测。 一组特定年龄人口群组与另一个年龄组的所有功能密切匹配,是否平均支付比其他年龄组高?” 二进制和多类平面标签的范围为 [-1, +1]。
  • 当针对不受欢迎的方面作出不利的反事实翻转决定的数量时,会出现正值D超过了有利的。

  • 当不利和有利的反事实翻转测试决定的数量平衡时,将出现接近零的值。

  • 当不受欢迎的方面作出不利的反事实翻转决定的数量时,会出现负值D低于有利的。

有关训练后偏差指标的其他信息,请参阅金融 Machine Learning 的公平措施系列.