预测标签中正比率的差异 (DPL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预测标签中正比率的差异 (DPL)

预测标签 (DPL) 度量中正比率的差异决定了模型是否以不同方式预测每个小面的结果。它被定义为正面预测的比例 (y' = 1) 之间的差值a和正面预测的比例 (y' = 1)D. 例如,如果模型预测授予贷款 60% 的中年组(面a)和 50% 其他年龄组(方面D),它可能会偏向于方面D. 在此示例中,您需要确定 10% 差异对于偏差案例是否重要。DPL 与 DPL 的比较可评估训练后模型预测中最初存在于数据集中的偏差是增加还是减少。

预测标签比例差异的公式:

        数据库 = q'a-q'd

其中:

  • q 'a= n'a(1)/na是小平面的预测比例a谁得到了价值 1 的积极结果。在我们的例子中,预计获得贷款的中年层面的比例。n'a(1)表示小平面成员的数量a谁得到值 1 和 n 的积极预测结果a是小平面成员的数量a.

  • q 'd= n'd(1)/nd是小平面的预测比例D谁得到了价值 1 的积极结果。在我们的例子中,一个方面的老年人和年轻人预计会获得贷款。n'd(1)表示小平面成员的数量D谁得到一个积极的预测结果和 nd是小平面成员的数量D.

如果 DPL 足够接近 0,则意味着训练后人口均等已经实现。

对于二进制和多重面标签,归一化 DPL 值在间隔 [-1, 1] 范围内。对于连续标注,值随时间间隔变化 (-∞, +∞)。

  • 正 DPL 值表示该小平面a与面相比,预测积极结果的比例较高D.

    这被称为正偏差.

  • DPL 值接近零表示小平面之间预测正结果的比例较高aD并且值为零表示完美的人口平等。

  • 负 DPL 值表示小平面D与面相比,预测积极结果的比例较高a. 这被称为负偏差.