标签比例的差异 (DPL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

标签比例的差异 (DPL)

标签比例的差异(DPL)将观察到的结果的比例与平面的正标签比例进行比较。D观察到的结果中有正面标签的比例一个在训练数据集中。例如,你可以用它来比较中年人的比例(平面)一个)和其他年龄组(方面)D) 已批准用于金融贷款。机器学习模型试图尽可能密切地模拟训练数据决策。因此,在 DPL 较高的数据集上训练的机器学习模型可能会在 future 的预测中反映同样的不平衡。

标签比例差异的公式如下:

        DPL = (qa-qd

其中:

  • Qana(1)/na是平面的比例一个他们的标签值为 1。例如,获得贷款批准的中年人口比例。n 在此a(1)表示 facet 的成员数量一个谁得到了积极的结果和 na是 Facet 的成员数量一个.

  • Qdnd(1)/nd是平面的比例D他们的标签值为 1。例如,中年人口以外获得贷款批准的人口比例。n 在此d(1)表示小平面的成员数D谁得到了积极的结果和 nd是小平面的成员数量D.

如果 DPL 足够接近 0,那么我们说人口平等已实现。

对于二进制和多类别平面标签,DPL 值在间隔内 (-1, 1) 范围。对于连续标签,我们设置了将标签折叠为二进制标签的阈值。

  • 正 DPL 值表示该方面一个与方面相比,是具有更高的积极成果比例D.

  • 接近零的 DPL 值表示各个方面之间的积极结果比例更相等,值为零表示完美的人口统计平等。

  • 负 DPL 值表示该方面D与方面相比,积极成果的比例更高一个.

大规模的 DPL 是否存在问题,因情况而异。在一个有问题的情况下,高规模的 DPL 可能是数据中潜在问题的信号。例如,DPL 较高的数据集可能反映了对基于年龄的人口群体的历史偏见或偏见,这些偏见或偏见对于模型学习来说是不可取的。