测量训练前偏置项 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

测量训练前偏置项

测量 ML 模型中的偏差是减少偏差的第一步。每一种偏见衡量标准都对应于不同的公平概念。即使考虑到简单的公平概念,也会导致在各种情况下适用许多不同的措施。例如, 考虑年龄的公平性, 为了简单起见, 中年和其他年龄组是两个相关的人口统计数据, 称为分面. 对于贷款的最低贷款模式,我们可能希望小型企业贷款发放到两个人口统计数量相等的数量。或者,在处理求职者时,我们可能希望看到每个雇用人口的成员数量相等。然而,这种方法可能假定两个年龄组的工作人数相等,因此我们可能希望以适用的数量为条件。此外,我们不妨考虑是否适用相等数字,而是考虑我们是否拥有相同数量的合格申请人。或者,我们可能会认为公平性是在两个年龄人口统计中对合格申请人的接受率相等,或者是同等的申请人拒绝率,或者两者兼有。您可以在感兴趣的属性上使用具有不同比例数据的数据集。这种不平衡可能会混合您选择的偏差度量。这些模型在对一个面进行分类时可能比另一个面更准确。因此,您需要选择在概念上适合应用程序和情况的偏差指标。

我们使用以下符号来讨论偏差指标。此处描述的概念模型用于二进制分类,其中事件被标记为在其样本空间中只有两个可能的结果,称为正值(值 1)和负值(值为 0)。这一框架通常可以直接地扩展到多种类型的分类,或在需要时扩展到涉及持续有价值结果的情况。在二进制分类案例中,会将正标签和负标签分配给原始数据集中记录的结果,以获得偏好的方面a和一个不喜欢的方面D. 这些标签 y 称为观察到的标签来区分它们与预测的标签在 ML 生命周期的训练或推理阶段由机器学习模型分配的 y'。这些标签用于定义概率分布 Pa(y) 和 Pd(y) 各自的方面成果.

  • 标签:

    • y 表示训练数据集中观察到的 n 个事件结果标签。

    • y' 表示经过训练的模型在数据集中观察到的 n 个标注的预测标注。

  • 结果:

    • 样本的正面结果(值为 1),例如应用程序验收。

      • n(1)是观察到的积极结果(接受)标签的数量。

      • n'(1)是正面结果(接受)的预测标签的数量。

    • 样本的负面结果(值为 0),例如应用程序拒绝。

      • n(0)是观察到的负面结果(拒绝)标签的数量。

      • n'(0)是负面结果(拒绝)的预测标签的数量。

  • 分面值:

    • 分面a— 定义偏差偏好的人口统计的要素值。

      • na是受欢迎的小平面值观察到的标签数量:na= na(1)+na(0)观测到的值小面的正负标签的总和a.

      • n'a是偏好的小平面值的预测标签数量:n'a= n'a(1)+n'a(0)面值的正负预测结果标签的总和a. 请注意 n'a= na.

    • 分面D— 定义偏差不利的人口统计的要素值。

      • nd是不受欢迎的小平面值观察到的标签数量:nd= nd(1)+nd(0)观察到的小平面值的正负标签的总和D.

      • n'd是不受欢迎的小平面值的预测标注数量:n'd= n'd(1)+n'd(0)小平面值的正负预测标签的总和D. 请注意 n'd= nd.

  • 标记小平面数据结果结果的概率分布:

    • Pa(y) 是观测到的小平面标签的概率分布a. 对于二进制标记数据,此分布由多面样本数量的比率给出a标记与积极结果的总数,Pa(y1) = na(1)/na,以及带负结果的样本数量与总数之比,Pa(y0) = na(0)/na.

    • Pd(y) 是观测到的小平面标签的概率分布D. 对于二进制标记数据,此分布由多面中的样本数量给出D标记与积极结果的总数,Pd(y1) = nd(1)/nd,以及带负结果的样本数量与总数之比,Pd(y0) = nd(0)/nd.

根据受人口差异偏见的数据训练的模型可能会学习,甚至加剧这些差异。为了在将资源用于训练模型之前识别数据中的偏差,SageMaker Clelity 提供了数据偏差指标,您可以在训练之前在原始数据集上计算这些指标。所有预训练量度都与模型无关,因为它们不依赖于模型输出,因此对任何模型都有效。第一个偏差衡量指标检查方面不平衡,但不检查结果。它决定了训练数据量在多大程度上在不同方面具有代表性,根据应用程序的需要。其余偏差衡量指标以各种方式比较结果标签的分布情况aD在数据中。范围超过负值的指标可以检测负偏差。下表包含用于快速指导的作弊表以及指向训练前偏差指标的链接。

训练前偏置指标指标
偏置度量 描述 示例问题 解释指标值
类别不平衡 (CI) 测量不同小平面值之间成员数量的不平衡。

由于没有足够的中年层面以外的人口统计数据,会有年龄偏见吗?

标准化范围:[-1,+1]

解释:

  • 正值表示小平面a在数据集中具有更多训练样本。

  • 接近零的值表示小平面与数据集中的训练样本数量相平衡。

  • 负值表示切面D在数据集中具有更多训练样本。

标签比例差异 (DPL) 衡量不同方面价值之间积极结果的不平衡。 由于数据中的小平面值的偏差标签,在 ML 预测中是否会存在基于年龄的偏差?

标准化二进制和多重面标签的范围:[-1,+1]

连续标注的范围:(-∞, +∞)

解释:

  • 正值表示小平面a具有较高比例的积极成果.

  • 接近零的值表示小平面之间积极结果的比例更为相等。

  • 负值表示小平面D具有较高比例的积极成果.

库尔巴克莱布勒分歧 (吉隆坡) 测量不同方面的结果分布在熵之间的差异程度。 不同人口群体的贷款申请结果分布有何不同?

二进制、多重、连续的范围:[0, +∞)

解释:

  • 值接近零表示标注的分布类似。

  • 正值表示标注分布发散,背离越大。

简森-香农分歧 (JS) 测量不同方面的结果分布在熵之间的差异程度。 不同人口群体的贷款申请结果分布有何不同?

二进制、多重、连续的范围:[0, +∞)

解释:

  • 值接近零表示标注的分布类似。

  • 正值表示标注分布发散,背离越大。

Lp-标准 (LP) 测量与数据集中不同方面相关联的结果的不同人口统计分布之间的 p 范数差异。 贷款申请结果在不同人口统计中的分布有何不同?

二进制、多重、连续的范围:[0, +∞)

解释:

  • 值接近零表示标注的分布类似。

  • 正值表示标注分布发散,背离越大。

总变化距离 (TVD) 测量 L 的一半1-与数据集中不同方面相关联的结果的不同人口统计分布之间的规范差异。 贷款申请结果在不同人口统计中的分布有何不同?

二进制结果、多种结果和连续结果的范围:[0, +∞)

  • 值接近零表示标注的分布类似。

  • 正值表示标注分布发散,背离越大。

科尔莫戈罗夫-斯米尔诺夫 (KS) 测量数据集中不同方面的分布中结果之间的最大差异。 哪些大学申请结果显示了人口群体最大的差异? 二进制结果、多种结果和连续结果的 KS 值范围:[0, +1]
  • 接近零的值表示标签在所有结果类别中的小平面之间均匀分布。

  • 1 附近的值表示一个类别的标签都在一个方面,因此非常不平衡。

  • 间歇性值表示最大标签不平衡的相对程度。

条件人口差异 (CDD) 衡量不同方面作为一个整体,以及子群之间的结果差异。 某些群体拒绝大学入学成绩的比例是否高于其入学比例?

CDD 的范围:[-1,+1]

  • 正值表示一个结果,其中小面D被拒绝超过接受。

  • 接近零表示平均没有人口统计差异。

  • 负值表示一个结果,其中方面a被拒绝超过接受。

有关偏置指标的其他信息,请参阅金融领域 Machine Learning 的公平措施.