测量训练前偏置 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

测量训练前偏置

衡量机器学习模型中的偏差是减少偏差的第一步。每种偏见措施都对应于不同的公平概念。即使考虑简单的公平概念,也会导致许多适用于各种情况的不同措施。例如,考虑年龄的公平性,为了简单起见,中年和其他年龄组是两个相关的人口统计数据,称为方面. 在贷款机器学习模式的情况下,我们可能希望小型企业贷款发放给两种人口统计数量相同的数量。或者,在处理求职者时,我们可能希望看到雇用的每个人口中有相同数量的成员。但是,这种方法可能会假定两个年龄组的人数相等适用于这些工作,因此我们可能希望以适用的数字为条件。此外,我们可能不想考虑是否适用同等数字,而是考虑我们是否有相同数量的合格申请人。或者,我们可能会认为公平是在两个年龄人口统计中,合格申请人的接受率相同,或者,申请人的拒绝率相等,或两者兼而有。您可以在感兴趣的属性上使用具有不同比例数据的数据集。这种不平衡可能会混淆你选择的偏见衡量标准。模型在对一个方面进行分类时可能比另一个方面更准确。因此,您需要选择在概念上适合应用程序和情况的偏见指标。

我们使用以下符号来讨论偏差指标。此处描述的概念模型用于二进制分类,其中事件被标记为样本空间中只有两种可能的结果,称为正(值为 1)和负(值为 0)。这个框架通常可以直接扩展到多类别分类,或者在需要时可扩展到涉及持续有价值结果的情况。在二进制分类案例中,正标签和负面标签将分配给原始数据集中记录的结果,以获取受欢迎的方面一个而且对于一个不喜欢的方面D. 这些标签 y 被称为观察的标签将它们与预测的标签'是由机器学习模型在机器学习生命周期的训练或推断阶段分配的。这些标签用于定义概率分布 Pa(y) 和 Pd(y) 他们各自的方面结果。

  • 标签:

    • y 表示训练数据集中事件结果的 n 个观测标签。

    • y 表示经过训练的模型对数据集中 n 个观测到的标签的预测标签。

  • 结果:

    • 样本的积极结果(值为 1),例如申请接受。

      • n(1)是观察到的积极结果(接受)标签的数量。

      • n'(1)是积极结果(接受)的预计标签数量。

    • 样本的负面结果(值为 0),例如申请拒绝。

      • n(0)是观察到的负面结果(拒绝)标签的数量。

      • n'(0)是负面结果(拒绝)的预计标签数量。

  • 分面值:

    • 特点一个— 定义偏见偏向的人口群体的功能值。

      • na是偏爱的小面值观察到的标签数量:nan=a(1)+na(0)价值方面的正面和负面观察到的标签的总和一个.

      • n'a是偏爱的刻面值的预测标签数量:n'an'a(1)+n'a(0)面值的正面和负面预测结果标签的总和一个. 请注意 n'an=a.

    • 特点D— 定义偏向不利的人口群体的功能值。

      • nd是不喜欢的小面值观察到的标签数量:ndn=d(1)+nd(0)小平面值观测到的正值和负面标签的总和D.

      • n'd是不喜欢的平面值的预测标签数量:n'dn'd(1)+n'd(0)小面值的正值和负面预测标签的总和D. 请注意 n'dn=d.

  • 标记的小面数据结果的概率分布:

    • Pa(y) 是刻面观测到的标签的概率分布一个. 对于二进制标记的数据,此分布由刻面样本数量的比率给出一个对总数标记为积极结果,Pay1n)a(1)/na,以及结果为负面的样本数量与总数之比,Pay0n)a(0)/na.

    • Pd(y) 是刻面观测到的标签的概率分布D. 对于二进制标记的数据,此分布由平面中的样本数量给出D对总数标记为积极结果,Pdy1n) =d(1)/nd,以及结果为负面的样本数量与总数之比,Pdy0n) =d(0)/nd.

对受人口差异偏差偏差的数据进行培训的模型可能会学习甚至加剧 为了在花费资源对模型进行模型训练之前识别数据中的偏差, SageMaker 澄清提供了数据偏差指标,您可以在训练前对原始数据集进行计算 所有训练前指标都与模型无关,因为它们不依赖于模型输出,因此对任何模型都有效。第一个偏见指标检查面面不平衡,但不是结果。它决定了应用程序所需的培训数据量在多大程度上在不同方面具有代表性。剩余的偏差指标以不同的方式比较结果标签的分布情况一个D在数据中。超过负值的指标可以检测到负面偏差。下表包含快速指导的备忘单以及指向培训前偏差指标的链接。

预训练偏置指标
偏置指标 描述 示例问题 解释指标值
班级失衡 (CI) 衡量不同面值之间成员数量的不平衡。

由于没有足够的中年人口数据,是否会存在基于年龄的偏见?

标准化范围:[-1, +1]

解释:

  • 正值表示方面一个数据集中有更多训练样本。

  • 接近零的值表示小平面在数据集中的训练样本数量中是平衡的。

  • 负值表示方面D数据集中有更多训练样本。

标签比例的差异 (DPL) 衡量不同方面价值之间积极结果的不平衡。 由于数据中刻面值的偏差标记,机器学习预测中是否存在基于年龄的偏见?

标准化二进制和多类别平面标签的范围:[-1, +1]

连续标签的范围:(-∞, +∞)

解释:

  • 正值表示刻面一个具有较高比例的积极结果。

  • 接近零的值表示各个方面之间的积极结果比例更相等。

  • 负值表示刻面D具有较高比例的积极结果。

KullBack-Leibler 发散(KL) 衡量不同方面的结果分布在熵上相互差异的程度。 不同人口群体的贷款申请结果分配有多不同?

二进制、多类别、连续的范围:[0, +∞)

解释:

  • 接近零的值表示标签的分布情况类似。

  • 正值表示标签分布差异,差异越大,正值越大。

Jensen-Sannon 背离(JS) 衡量不同方面的结果分布在熵上相互差异的程度。 不同人口群体的贷款申请结果分配有多不同?

二进制、多类别、连续的范围:[0, +∞)

解释:

  • 接近零的值表示标签的分布情况类似。

  • 正值表示标签分布差异,差异越大,正值越大。

Lp-规范(LP) 测量与数据集中不同方面相关的结果的不同人口分布之间的 p 范数差异。 对于不同的人口统计数据,贷款申请结果的分配有多不同?

二进制、多类别、连续的范围:[0, +∞)

解释:

  • 接近零的值表示标签的分布情况类似。

  • 正值表示标签分布差异,差异越大,正值越大。

总变化距离 (TVD) 测量 L 的一半1-与数据集中不同方面相关的结果的不同人口分布之间的标准差异。 对于不同的人口统计数据,贷款申请结果的分配有多不同?

二进制、多类别和连续结果的范围:[0, +∞)

  • 接近零的值表示标签的分布情况类似。

  • 正值表示标签分布差异,差异越大,正值越大。

科尔莫哥罗夫-斯米尔诺夫(KS) 测量数据集中不同方面的分布结果之间的最大差异。 哪些大学申请结果显示了按人口群体划分的最大差异? 二进制、多类别和连续结果的 KS 值范围:[0, +1]
  • 接近零的值表示标签在所有结果类别中的小面之间均匀分布。

  • 接近一个值表示一个类别的标签都在一个方面,因此非常不平衡。

  • 间歇性值表示最大标签不平衡的相对程度。

有条件的人口统计差异 (CDD) 衡量整个不同方面之间的结果差异,但也可以按子组衡量结果的差距。 有些群体的大学入学成绩被拒绝的比例是否超过他们的录取比例?

CDD 范围:[-1, +1]

  • 正值表示一种结果,其中面D被拒绝超过接受。

  • 接近零表示平均来说没有人口差异。

  • 负值表示一个结果,其中面一个被拒绝超过接受。

有关偏置指标的其他信息,请参阅金融 Machine Learning 的公平性措施.