检测训练前数据偏差 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

检测训练前数据偏差

法律、政策和计算机科学等学科研究了算法偏差、歧视、公平性和相关主题。如果计算机系统歧视某些个人或个人群体,则可能被认为是有偏见的。为这些应用提供支持的机器学习模型可以从数据中学习,这些数据可以反映差异或其他固有偏差。例如,训练数据可能没有足够的表示各种人口群体,或者可能包含有偏见的标签。根据表现出这些偏差的数据集训练的机器学习模型最终可能会学习它们,然后再现甚至加剧预测中的偏差。机器学习领域通过检测偏差并在 ML 生命周期的每个阶段测量偏差,提供了解决偏差的机会。您可以使用 Amazon SageMaker 澄清来确定用于培训模型的数据是否对任何偏差进行编码

可以在训练前和训练之后测量偏差,并在将模型部署到端点进行推断后根据基线进行监控。预训练偏差量度旨在检测和测量原始数据中的偏差,然后再用于训练模型。所使用的衡量指标与模型无关,因为它们不依赖于任何模型输出。然而,有不同的公平概念需要不同的偏见措施。Amazon SageMaker 澄清提供偏差指标来量化各种公平标准。

有关偏置指标的其他信息,请参阅金融领域 Machine Learning 的公平措施.

Amazon SageMaker 澄清偏见和公平条款

SageMaker 澄清使用以下术语来讨论偏见和公平性。

功能

被观察到的现象的单个可测量属性或特征,包含在表格数据列中。

Label

作为训练机器学习模型的目标的功能。称为观察到的标签或者观察结果.

预测的标签

模型预测的标签。也称作预测结果.

示例

由要素值和标注值描述的观测图元,包含在表格数据的行中。

数据集

样本的集合。

偏差

训练数据中的不平衡或模型在不同群体(如年龄或收入阶段)的预测行为。偏差可能是用于训练模型的数据或算法造成的。例如,如果一个 ML 模型主要是根据中年人的数据进行训练,那么在做出涉及年轻人和老年人的预测时,它可能不太准确。

偏置度量

返回指示潜在偏差水平的数值的函数。

偏差报告

给定数据集的偏差量度的集合,或数据集和模型的组合。

正标签值

标签有利于样本中观察到的人口统计组的值。换句话说,将样本指定为具有正结果.

负标签值

标签不利于样本中观察到的人口统计组的值。换句话说,将样本指定为具有负结果.

组变量

用于构成子组以测量条件人口统计差异 (CDD) 的数据集的类别列。这个指标仅需要关于辛普森的悖论。

分面

包含测量偏差的属性的列或要素。

分面值

偏置可能偏向或不赞成的属性的要素值。

预测概率

模型预测的样本具有正结果或负结果的概率。

示例笔记本

Amazon SageMaker 澄清提供了以下样本笔记本电脑用于偏差检测:

此笔记本电脑已经验证仅在 Amazon SageMaker 工作室中运行。如果您需要有关在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅以及创建或打开 Amazon SageMaker 工作室笔记本电脑. 如果系统提示您选择内核,请选择Python 3(数据科学).