总变化距离 (TVD) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

总变化距离 (TVD)

总变化距离数据偏差指标 (TVD) 是 L 的一半1- 正常。TOD 是分面 ad 的标签结果的概率分布之间的最大可能差异。L1-norm 是 Hamming 距离,使用的一个指标通过确定将一个字符串更改为另一个字符串所需的最小替换数量来比较两个二进制数据字符串。如果这些字符串相互复制,则会确定复制时发生的错误数。在偏差检测上下文中,TOD 对需要更改分面 中的多少个结果以匹配分面 d 中的结果进行量化。

总变化距离的公式如下所示:

        TVD = ½*L1(P)a,Pd)

例如,假设您有一个包含三个类别的结果分配:yi = {y0,y1,y2} = {accepted, waitlisted, rejected},在大学生多类别方案中。对于计算 TOD 的每个结果,您都会接受分面 ad 的计数之差。结果如下:

        L1(P)a,Pd) = |na(0) - nd (0|) + |na(1) - nd (1)| + |na(2) - nd(2)|

其中:

  • na(i) 是分面 a 中第 i 个类别的结果数:例如,na(0)接受的分面数。

  • nd(i) 是分面 d 中第 i 个类别的结果数:例如,nd(2) 是分面 d 拒绝数。

    二进制、多类别和连续结果的 TVD 值范围为 [0, 1),其中:

    • 值接近零表示标签的分布相似。

    • 正值表示标签分布 differences (偏差),正值越大 difference (偏差) differences (偏差)。