预测标签 (DPPL) 中的正比例的差异 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

预测标签 (DPPL) 中的正比例的差异

预测标签 (DPPL) 指标中的正比例的差异决定了模型是否以不同方式预测每个分面的结果。它定义为分面 a 的正向预测 (y’ = 1) 与分面 d 的正向预测 (y’ = 1) 的比例之差。例如,如果模型预测向 60% 的中年组(分面 a)和 50% 的其他期限组(分面 d)授予了信用,则可能会针对分面 d 出现偏差。在本示例中,您需要确定 10% 的差异是否对一个大小写构成了偏差。DPL 与 DPPL 的比较评估数据集中最初存在的偏差在训练后是否在模型预测中增加或减少。

预测标签比例差异的公式:

        DPPL = q'a - q'd

其中:

  • q'a = n'a(1)/na获得值 1 的正面结果的分面 的预测比例。在我们的示例中,预测要获得授权借给的中年分面的比例。此处为 n'a(1) 表示获得正预测结果(值 1 和 n)的分面 的成员数。a 是分面 a 的成员数。

  • q'd = n'd(1)/nd 是获得值 1 的正面结果的分面 d 的预测比例。在我们的示例中,预测年老和年老人的分面会获得信用。此处为 n'd(1) 表示获得正向预测结果的分面 d 的成员数量,并表示 nd 是分面 d 的成员数。

如果 DPPL 足够接近 0,则表示已实现训练后人口统计奇偶校验

对于二进制和多类别分面标签,为间隔 [-1, 1] 内的标准化 DPL 值范围。对于连续标签,值在间隔内变化 (∞-、+∞)。

  • 正 DPPL 值表示与分面 d 相比,分面 a 具有更高比例的预测正结果。

    这称为正偏差

  • DPPL 值接近零表示分面 ad 之间的预测正向结果比例更相等,零值表示完全的人口统计等式。

  • 负 DPPL 值表示分面 d 与分面 a 相比,预测正向结果的比例更高。这称为负偏差