总变化距离 (TVD) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

总变化距离 (TVD)

总变化距离数据偏差指标 (TVD) 为 L 的一半1-规范。TVD 是方面标签结果的概率分布之间可能最大的差异一个D. L1-norm 是 Hamming 距离,这是一个指标,通过确定将一个字符串更改为另一个字符串所需的最小替换次数来比较两个二进制数据字符串。如果字符串是彼此的副本,它将决定复制时发生的错误数量。在偏见检测背景下,TVD 量化了多少方面的结果一个必须改变才能与各方面的结果相匹配D.

总变体距离的公式如下:

        TVD = ½*L1P (P)aP, Pd

例如,假设您有三个类别的结果分布,iy {y0y1y2} = 在大学招生多类别场景中 {已接受、等候名单、拒绝}。你把平面计数之间的差异一个D用于计算 TVD 的每个结果。结果如下:

        L1P (P)aP, Pd) = |na0)-nd0)|na(1)-nd(1)|na2)-nd(2)|

其中:

  • nai)是第 i 个类别结果的数量一个: 例如 na0)是方面的数量一个接受。

  • ndi)是方面 d 中第 i 个类别结果的数量:例如 nd2)是方面的数量D拒绝。

    二进制、多类别和连续结果的 TVD 值范围为 [0, 1),其中:

    • 接近零的值表示标签的分布情况类似。

    • 正值意味着标签分布差异,分歧越积极就越大。