库尔巴克莱布勒分歧 (吉隆坡) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

库尔巴克莱布勒分歧 (吉隆坡)

KullbackLeibler 背离 (KL) 测量观察到的切面标签分布的程度a, Pa(y), 偏离面分布D, Pd(y) 分段. 它也称作 P 的相对熵a(y) 项关于 Pd(y),并量化从 P 移动时丢失的信息量a(y) 至 Pd(y) 分段.

库尔巴克-莱布勒分歧的公式如下:

        KL (P)a|| Pd) =yPa(y)*Lolog [Pa(y) /Pd(y)]

这是概率 P 之间的对数差值的期望a(y) 和 Pd(y),其中期望由概率 P 加权a(y) 分段. 这不是分布之间的真实距离,因为它是不对称的,并且不能满足三角形不等式。该实现使用自然对数,以 nats 的单位给出 KL。使用不同的对数基可以得到成比例的结果,但单位不同。例如,使用基数 2 以位为单位给出 KL。

例如,假设贷款申请人组有 30% 的批准率(面D)和其他申请人的批准率(方面a)是 80%。KullbackLeibler 公式为您提供标签分布分散的方面a从分面D如下所示:

        吉隆坡 = 0.8 升(0.8/0.3)+ 0.2 升(0.2/0.7)= 0.53

此处的公式中有两个术语,因为这个示例中的标签是二进制的。除了二进制标签之外,该度量还可应用于多个标签。例如,在大学录取方案中,假定申请人可能会被分配三个类别标签之一:yi= {y y y0, y1, y2} = {已拒绝,等待名单,已接受}。

二进制结果、多重结果和连续结果的 KL 度量值范围为 [0, +∞)。

  • 接近零的值表示结果在不同方面的分布类似。

  • 正值表示标注分布发散,背离越大。