标签比例差异 (DPL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

标签比例差异 (DPL)

标签比例的差异 (DPL) 将观察到的结果与面积的正标签的比例进行比较D与观察结果的比例与正面标签的切面a在训练数据集中。例如,您可以使用它来比较中年人的比例(faceta)和其他年龄组(D)批准的金融贷款。机器学习模型试图尽可能地模拟训练数据决策。因此,在具有高 DPL 的数据集上训练的机器学习模型很可能会在未来的预测中反映出同样的不平衡。

标签比例差异的公式如下:

        DPL = (qa-qd

其中:

  • Qa= na(1)/na是平面的比例a,其观察到的标签值为 1。例如,获得贷款批准的中年人口比例。这里 na(1)表示小平面成员的数量a谁得到一个积极的结果和 na是小平面成员的数量a.

  • Qd= nd(1)/nd是平面的比例D,其观察到的标签值为 1。例如,中年人口以外获得贷款批准的人口比例。这里 nd(1)表示小平面的成员数D谁得到一个积极的结果和 nd是小平面成员的数量D.

如果 DPL 足够接近 0,那么我们说人口均等已实现。

对于二进制和多重面标签,DPL 值在间隔范围内 (-1, 1)。对于连续标签,我们设置一个阈值,以便将标签折叠为二进制。

  • DPL 值正值表示该面a与面相比,积极结果的比例较高D.

  • DPL 值接近零表示各个方面之间的积极结果比例更为相等,值为零表示完美的人口均等。

  • 负 DPL 值表示该面D与面相比,积极结果的比例较高a.

DPL 的大量级是否存在问题,因情况而异。在有问题的情况下,高量级 DPL 可能是数据中潜在问题的信号。例如,具有较高 DPL 的数据集可能会反映对基于年龄的人口群体的历史偏见或偏见,这些偏见对于模型来说是不可取的。