检测训练前数据偏差 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

检测训练前数据偏差

算法偏差、歧视、公平性和相关主题的研究涉及法律、政策和计算机科学等多个学科。如果计算机系统歧视某些个人或群体,则可能被视为有偏差。为这些应用程序提供支持的机器学习模型从数据中学习,这些数据可能反映出差异或其他固有偏差。例如,训练数据可能无法充分代表各种人口统计群体,或者可能包含有偏差的标签。在表现出这些偏差的数据集上训练的机器学习模型最终可能会学习这些偏差,然后在预测中重现甚至加剧这些偏差。机器学习领域通过在机器学习生命周期的每个阶段检测和衡量偏差,提供了一个解决偏差的机会。您可以使用 Amazon SageMaker Clarify 来确定用于训练模型的数据是否存在任何偏差

可以在训练前和训练后衡量偏差,并可在将模型部署到端点进行推理后,根据基准进行监控。训练前偏差指标旨在检测和衡量原始数据中的偏差,然后再将这些数据用于训练模型。所使用的指标与模型无关,因为它们不依赖于任何模型输出。然而,不同的公平概念需要不同的偏差衡量标准。Amazon SageMaker Clarify 提供了偏差指标,用于量化各种公平标准。

有关偏差指标的更多信息,请参阅了解 Amazon SageMaker Clarify 如何帮助检测偏差金融领域机器学习的公平性衡量标准

Amazon SageMaker Clarify 偏差和公平性术语

SageMaker Clarify 使用以下术语来讨论偏差和公平性。

特征

所观察到现象的单个可测量属性或特征,包含在表格数据的一列中。

标签

作为机器学习模型训练目标的特征。称为观测标签观测结果

预测标签

模型预测的标签。也称为预测结果

样本

观测到的实体,由特征值和标签值描述,包含在表格数据的一行中。

数据集

样本集合。

偏差

不同群体(如年龄或收入阶层)的训练数据或模型预测行为的不平衡。偏差可能由用于训练模型的数据或算法产生。例如,如果一个机器学习模型主要是根据中年人的数据进行训练,那么在对年轻人和老年人进行预测时,其准确性可能会降低。

偏差指标

返回表示潜在偏差程度的数值的函数。

偏差报告

给定数据集的偏差指标集合,或数据集和模型的组合。

阳性标签值

在样本中观测到的有利于人口统计群体的标签值。换句话说,将样本指定为阳性结果

阴性标签值

在样本中观测到的不利人口统计群体的标签值。换句话说,将样本指定为阴性结果

组变量

数据集的分类列,该数据集用于形成子组以测量条件人口统计差异 (CDD)。仅在有关辛普森悖论的这一指标中需要。

分面

包含测量偏差所依据的属性的列或特征。

分面值

偏差可能有利或不利的属性的特征值。

预测概率

模型预测的样本出现阳性或阴性结果的概率。

示例笔记本

Amazon SageMaker Clarify 提供了以下用于偏差检测的示例笔记本:

此笔记本经过验证,只能在 Amazon SageMaker Studio 中运行。如果需要有关如何在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅创建或打开 Amazon SageMaker Studio 笔记本。如果系统提示您选择内核,请选择 Python 3 (Data Science)