总变化距离 (TVD) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

总变化距离 (TVD)

总变异距离数据偏置度量 (TVD) 是 L 的一半1-规范 TVD 是标注面结果概率分布之间的最大差异aD. L L1-norm 是 Hamming 距离,通过确定将一个字符串更改为另一个字符串所需的最小替换数来比较两个二进制数据字符串。如果字符串是彼此的副本,则会确定复制时发生的错误数。在偏差检测环境中,TVD 量化了多少个结果a必须改变以匹配方面的结果D.

总变异距离的公式如下:

        电视 = ½*L1(Pa, Pd

例如,假设您有具有三个类别的结果分布,yi= {y y y0, y1, y2} = {接受、等候名单、拒绝},在大学录取多种情况下。你把切面计数之间的差异aD对于每个结果来计算 TVD。结果如下:

        L1(Pa, Pd) = |na(0)-nd(0)| +|na(1)-nd(1)| +|na(2)-nd(2)|

其中:

  • na(i)是第 i 个类别结果的数量a:例如 na(0)是小平面的数量aAccept。

  • nd(i)是面 d 中第 i 个类别结果的数量:例如 nd(2)是小平面的数量D拒绝。

    二进制结果、多种结果和连续结果的 TVD 值范围为 [0, 1),其中:

    • 值接近零表示标注分布类似。

    • 正值表示标注分布发散,背离越大。