标签比例差异 (DPL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

标签比例差异 (DPL)

标签比例差异 (DPL) 将训练数据集中分面 d 带有阳性标签的观测结果比例与分面 a 带有阳性标签的观测结果比例进行比较。例如,可以用它来比较中年人(分面 a)和其他年龄组的人(分面 d)获准获得金融贷款的比例。机器学习模型会尽可能地模仿训练数据的决策。因此,根据具有高 DPL 的数据集训练的机器学习模型很可能会在未来的预测中反映出同样的不平衡。

标签比例差异的公式如下:

        DPL = (qa - qd)

其中:

  • qa = na(1)/na 是观测标签值为 1 的分面 a 的比例。例如,获得贷款批准的中年人口比例。这里 na(1) 表示分面 a 中获得阳性结果的成员数,na 表示分面 a 的成员数。

  • qd = nd(1)/nd 是观测标签值为 1 的分面 d 的比例。例如,获得贷款批准的中年人群以外人口的比例。这里 nd(1) 表示分面 d 中获得阳性结果的成员数,nd 表示分面 d 的成员数。

如果 DPL 足够接近于 0,那么我们就可以说已经实现了人口统计均等

对于二进制和多类别分面标签,DPL 值的范围在区间 (-1, 1) 内。对于连续标签,我们设置了一个阈值,将标签折叠为二进制标签。

  • 正 DPL 值表示与分面 d 相比,分面 a 的阳性结果比例更高。

  • DPL 值接近于零表示各分面之间的阳性结果比例更加均等,而值为零则表示完全的人口统计均等。

  • 负 DPL 值表示与分面 a 相比,分面 d 的阳性结果比例更高。

高 DPL 是否有问题因情况而异。在有问题的情况下,高 DPL 可能是数据中存在潜在问题的信号。例如,具有高 DPL 的数据集可能反映了历史偏差或对不同年龄人口统计群体的偏见,这对模型的学习是不可取的。