总变差距离 (TVD) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

总变差距离 (TVD)

总变差距离数据偏差指标 (TVD) 是 L1-范数的一半。TVD 是分面 a 和分面 d 标签结果的概率分布之间可能存在的最大差异。L1-范数是汉明距离,该指标用于通过确定将一个字符串更改为另一个字符串所需的最小替换次数来比较两个二进制数据字符串。如果字符串是彼此的副本,它将确定复制时发生错误的次数。在偏差检测的背景下,TVD 量化了为与分面 d 中的结果相匹配而必须更改分面 a 中的结果数量。

总变差距离的公式如下:

        TVD = ½*L1(Pa, Pd)

例如,在大学录取多类别场景中,假设结果分布有三个类别,yi = {y0, y1, y2} = {录取, 候补, 拒绝}。您可以利用每个结果的分面 a 和分面 d 的计数之差计算 TVD。结果如下:

        L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|

其中:

  • na(i) 是分面 a 中第 i 个类别结果的数量:例如 na(0) 是分面 a 的接受次数。

  • nd(i) 是分面 d 中第 i 个类别结果的数量:例如 nd(2) 是分面 d 的拒绝次数。

    二进制、多类别和连续结果的 TVD 值范围为 [0, 1),其中:

    • 接近零的值意味着标签的分布情况相似。

    • 正值表示标签分布存在差异,正值越大,差异就越大。