标签的比例差异 (DPL) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

标签的比例差异 (DPL)

标签比例 (DPL) 的差异比较观察到的结果与分面 d 的正标签的比例,以及观察到的结果与训练数据集中分面 a 的正标签的比例。例如,您可以使用它来比较批准用于金融融资的中年人士(分面 a)和其他期限组(分面 d)的比例。机器学习模型会尝试尽可能地模拟训练数据决策。因此,在具有较高 DPL 的数据集上训练的机器学习模型可能在其未来的预测中反映相同的不平衡。

标签比例差异的公式如下所示:

        DPL = (qa - qd)

其中:

  • qa n=a(1)/na 是观察到的标签值为 1 的分面 的比例。例如,中年期人口统计中批准了放给的比例。此处为 na(1) 表示获得正面结果的分面 的成员数,na 是分面 a 的成员数。

  • qd n=d(1)/nd 是观察到的标签值为 1 的分面 d 的比例。例如,在中年期人口统计之外,批准获得放修的人数比例。此处为 nd(1) 表示获得正面结果的分面 d 的成员数量,而 表示 nd 是分面 d 的成员数。

如果 DPL 足够接近 0,则表示已实现人口统计等价

对于二进制和多类别分面标签,DPL 值在间隔 (-1、1) 内的范围。对于连续标签,我们设置一个阈值以将标签折叠为二进制标签。

  • 正 DPL 值表示与分面 d 相比,分面 a 具有更高比例的正结果。

  • DPL 值接近零表示分面之间的正向结果比例更相等,而零值表示完全的人口统计等式。

  • 负 DPL 值表示分面 d 与分面 a 相比具有更高比例的正结果。

DPL 的较大幅度问题是否因情况而异。在有问题的情况下,高亮度 DPL 可能是数据中潜在问题的信号。例如,具有较高 DPL 的数据集可能会反映对基于年龄的人口统计组的历史偏差或偏差,这对于模型学习来说是不可取的。