检测预训练数据偏差 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

检测预训练数据偏差

已跨领域(如法律、策略和计算机科学)研究算法偏差、区别、公平性和相关主题。如果计算机系统区分某些个人或群组,则可能会被视为有偏差。为这些应用程序提供支持的机器学习模型从数据中学习,此数据可能会反映不一致或其他固有偏差。例如,训练数据可能没有足够的各种人口统计组表示形式,或者可能包含有偏差的标签。在显示这些偏差的数据集上训练的机器学习模型最终可能会学习这些偏差,然后在预测中重现甚至加强这些偏差。机器学习领域通过检测偏差并在 ML 生命周期的每个阶段测量偏差,从而提供了解决偏差的机会。您可以使用 Amazon SageMaker Clarify 确定用于训练模型的数据是否编码任何偏差

偏差可以在训练之前和训练之后进行测量,并在将模型部署到终端节点以进行推理后根据基准进行监控。预训练偏差指标设计用于检测和测量原始数据中的偏差,然后再用于训练模型。使用的指标与模型无关,因为它们不依赖于任何模型输出。但是,需要对偏差进行不同度量的公平概念不同。 Amazon SageMaker Clarify 提供了偏差指标来量化各种公平标准。

有关偏差指标的其他信息,请参阅 Finance 中机器学习的公平性措施。

Amazon SageMaker Clarify 偏差和公平性术语

SageMaker Clarify 使用以下术语讨论偏差和公平性。

功能

观察到的现象的单个可测量属性或特征,包含在表格数据的列中。

标签

作为训练机器学习模型的目标的功能。称为观察到的标签观察到的结果

预测标签

模型预测的标签。也称为预测结果

示例

由特征值和标签值(包含在表格数据的行中)描述的观察到的实体。

数据集

示例集合。

偏差

不同组(如年龄或收入括号)中的训练数据或模型的预测行为的不平衡。用于训练模型的数据或算法可能会导致偏差。例如,如果 ML 模型主要根据来自中间阶段的个人的数据进行训练,在进行涉及年老用户的预测时,它可能不太准确。

偏差指标

返回指示潜在偏差级别的数值的函数。

偏差报告

给定数据集的偏差指标集合,或数据集和模型的组合。

正标签值

采样中观察到的对人口统计组良好的标签值。换句话说, 指定样本具有正面结果

负标签值

采样中观察到的对人口统计组负面的标签值。换句话说, 将示例指定为具有负结果

组变量

数据集的分类列,用于组成子组以衡量条件人口统计差异 (CDD)。仅此指标对于 Simpson 的 异常是必需的。

分面

一个列或特征,其中包含与测量哪个偏差相关的属性。

分面值

偏差属性的特征值可能倾向于 或 disfavor。

预测概率

模型预测的样本具有正或负结果的概率。

示例笔记本

Amazon SageMaker Clarify 提供以下用于偏差检测的示例笔记本:

此笔记本已经过验证,只能在 Amazon SageMaker Studio 中运行。如果您需要有关如何在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅创建或打开 Amazon SageMaker Studio 笔记本。如果系统提示您选择一个内核,请选择 Python 3 (Data Science) (Python 3 (数据科学))。