测量预训练偏差 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

测量预训练偏差

在 ML 模型中测量偏差是缓解偏差的第一步。每个偏差度量都对应于一个不同的公平概念。即使考虑简单的公平概念, 也会产生适用于各种上下文的许多不同措施。例如,在年龄方面,考虑公平,为简单起见,年龄的中级和其余部分是两个相关的人口统计,称为分面。对于 ML 模型的出借,我们可能希望为两个人口统计类别的相同数量发放小企业借。或者,在处理作业申请者时,我们可能希望看到每个已租用的人数相等。但是,这种方法可能假定两个年龄组相等的数量适用于这些作业,因此,我们可能希望以适用的数量作为条件。此外,我们还可能希望不要考虑是否应用相等的数字,而是考虑我们是否拥有相等数量的合格申请者。或者,我们可能认为公平性是符合两个年龄背景的申请人的相同接受率,或者是符合两个年龄背景特征的申请人的相同拒绝率,或者是一样的。您可以对感兴趣的属性使用具有不同数据比例的数据集。这种不平衡可能将您选择的偏差度量混淆。这些模型在对一个分面进行分类时可能比另一个分面分类更准确。因此,您需要选择在概念上适合应用程序和情况的偏差指标。

我们使用以下表示法讨论偏差指标。此处描述的概念模型用于二进制分类,其中,事件标记为在其采样空间中仅具有两个可能的结果,称为正(值为 1)和负(值为 0)。此框架通常能够以简单的方式扩展到多类别分类或在需要时涉及连续值结果的情况。在二进制分类案例中,将为原始数据集中针对首选分面 a 和针对解析分面 d 记录的结果分配正标签和负标签。这些标签 y 称为观察到的标签,以便与机器学习模型在 ML 生命周期的训练或推理阶段分配的预测标签 y 相区分。这些标签用于定义概率分布 Pa(y) 和 Pd(y) 表示其各自的分面结果。

  • 标签:

    • y 表示训练数据集中事件结果的 n 个观察到的标签。

    • y' 表示训练模型在数据集中观察到的 n 个标签的预测标签。

  • 结果:

    • 示例的正结果(值为 1),例如应用程序接受。

      • n(1) 是观察到的正结果(接受)的标签数。

      • n'(1) 是正向结果(接受)的预测标签数。

    • 示例的负结果(值为 0),例如应用程序拒绝。

      • n(0) 是观察到的负结果(拒绝)的标签数。

      • n'(0) 是负向结果(拒绝)的预测标签数。

  • 分面值:

    • 分面 a – 定义偏差所倾向于的人口统计特征值。

      • na 是针对首选分面值观察到的标签数:na n=a(1) + na(0) 值分面 a 的观察到的正标签和负标签之和。

      • n'a 是首选分面值的预测标签数:n'a = n'a(1) + n'a(0) 分面值 a 的正向和负正向预测结果标签的总和。请注意,n'a n=a.

    • 分面 d – 定义偏移分类器的人口统计特征值。

      • nd 是对于disfarod 分面值观察到的标签数:nd n=d(1) + nd(0) 分面值 d 的观察到的正标签和负标签的总和。

      • n'd 是偏离的分面值的预测标签数:n'd = n'd(1) + n'd(0) 分面值 d 的正向和负向预测标签的总和。请注意,n'd n=d.

  • 标记的分面数据结果结果的概率分布:

    • Pa(y) 是观察到的分面 a 的标签的概率分布。对于二进制标记数据,此分布是根据分面标记为正结果的样本数与总数的比率得出的。ay1) = na(1)/na,以及具有负结果的样本数与总数的比率,Pay0) = na(0)/na.

    • Pd(y) 是观察到的分面 d 标签的概率分布。对于二进制标记数据,这种分布是通过分面 d 中标记为阳性结果的样本数得出总数 Pdy1) = nd(1)/nd,以及具有负结果的样本数与总数的比率,Pdy0) = nd(0)/nd.

基于由人口统计差异偏差的数据训练的模型可能会学习甚至会扩大这些模型。为了在附加 资源来训练模型之前识别数据中的偏差, SageMaker Clarify 提供了数据偏差指标,您可以在训练之前在原始数据集上计算这些指标。所有预训练指标都与模型无关,因为它们不依赖于模型输出,因此对任何模型都有效。第一个偏差指标检查分面不平衡,但不检查结果。它确定训练数据量在不同的分面之间具有代表性的程度,这是应用程序的需要的。其余偏差指标以各种方式比较数据中分面 ad 的结果标签分布。超出负值的指标可以检测到负偏差。下表包含一个备忘单,用于快速指导以及指向预训练偏差指标的链接。

预训练偏差指标
偏差指标 描述 示例问题 解释指标值
类不平衡 (CI) 测量不同分面值之间的成员数的不平衡。

由于没有足够的数据用于中间期限分面之外的人口统计,是否存在基于年龄的偏差?

标准化范围:[-1,+1]

解释:

  • 正值表示 分面 数据集中具有更多训练样本。

  • 值接近零表示分面在数据集中的训练样本数上是平衡的。

  • 负值表示分面 d 在数据集中具有更多训练样本。

标签的比例差异 (DPL) 衡量不同分面值之间的正结果的不平衡。 由于数据中的分面值的偏移标记,ML 预测中是否存在基于存在时间的偏差?

标准化二进制和多类别分面标签的范围:[-1,+1]

连续标签的范围∞:(-, ∞+)

解释:

  • 正值表示 分面 具有较高比例的正结果。

  • 值接近零表示分面之间的正向结果比例更相等。

  • 负值表示分面 d 具有较高比例的正结果。

Kullback-Leibler Divigence (KL) 衡量不同分面的结果分布在多大程度上彼此因环境而异。 对于不同的人口统计组,出借应用程序结果的分布有何不同?

二进制、多类别、连续的范围:[0, ∞+)

解释:

  • 值接近零表示标签的分布相似。

  • 正值表示标签分布 differences (偏差),正值越大 difference (偏差) differences (偏差)。

Jensen-Shannon Diverence (JS) 衡量不同分面的结果分布在多大程度上彼此因环境而异。 对于不同的人口统计组,出借应用程序结果的分布有何不同?

二进制、多类别、连续的范围:[0, ∞+)

解释:

  • 值接近零表示标签的分布相似。

  • 正值表示标签分布 differences (偏差),正值越大 difference (偏差) differences (偏差)。

Lp-正常 (LP) 测量数据集中与不同分面关联的结果的不同人口统计分布之间的 p-norm 差异。 不同人口统计资料的出借应用程序结果的分布有何不同?

二进制、多类别、连续的范围:[0, ∞+)

解释:

  • 值接近零表示标签的分布相似。

  • 正值表示标签分布 differences (偏差),正值越大 difference (偏差) differences (偏差)。

总变化距离 (TVD) 测量 L 的一半1- 与数据集中的不同分面关联的结果的不同人口统计分布之间的差异。 不同人口统计资料的出借应用程序结果的分布有何不同?

二进制、多类别和连续结果的范围:[0, ∞+)

  • 值接近零表示标签的分布相似。

  • 正值表示标签分布 differences (偏差),正值越大 difference (偏差) differences (偏差)。

Kolmogorov-Smirnov (KS) 测量数据集中不同分面的分布中的结果之间的最大差异。 哪个大学应用程序结果按人口统计组展示最大的差异? 二进制、多类别和连续结果的 LP 值范围:[0,+1]
  • 值接近零表示标签在所有结果类别中的分面之间均匀分布。

  • 接近一个的值表示一个类别的标签都位于一个分面中,因此非常不平衡。

  • 间歇性值表示最大标签不平衡的相对度数。

有条件人口统计差异 (CDD) 整体测量不同分面之间以及不同子组之间结果的差异。 某些组对大学生准入结果的拒绝比例是否高于接受比例?

CDD 的范围:[-1, +1]

  • 正值表示拒绝分面 d 的结果超过了接受的值。

  • 接近零表示平均没有人口统计差异。

  • 负值表示拒绝分面 的结果超过了接受次数。

有关偏差指标的其他信息,请参阅 Finance 中机器布局的公平性措施。