KullBack-Leibler 发散(KL) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

KullBack-Leibler 发散(KL)

KullBack-Leiber 背离度(KL)衡量了观察到的刻面的标签分布程度一个P, Pa(y), 不同于刻面的分布DP, Pd(y)。它也称为 P 的相对熵。a(y) 关于 Pd(y) 并量化从 P 移动时丢失的信息量a(y) 到 Pd(y)。

KullBack-Leiber 背离的公式如下:

        L (P)a|Pd) = ΣyPay)*Log [Pa(y) /Pd(y)]

这是对概率 P 之间的对数差异的期望a(y) 和 Pd(y),其中预期由概率 P 加权a(y)。这不是分布之间的真正距离,因为它是不对称的,不能满足三角形的不平等。该实现使用自然对数,以 nats 为单位给予 KL。使用不同的对数基数可以得出成比例的结果,但单位不同。例如,使用底数 2 给 KL 以位为单位。

例如,假设一组贷款申请人的批准率为 30%(方面)D)和其他申请人的批准率(小面)一个) 是 80%。KullBack-Leibler 公式为您提供了刻面的标签分布差异一个从分面D如下所示:

        吉隆坡 = 0.8* ln (0.8/0.3) + 0.2*ln (0.2/0.7) = 0.53

这里的公式中有两个术语,因为在本例中标签是二进制的。除了二进制标签之外,此度量还可以应用于多个标签。例如,在大学入学情况中,假设申请人可以被分配三个类别标签之一:yiy {y0y1y2} = {已拒绝、等候名单、已接受}。

二进制结果、多类别和连续结果的 KL 指标值范围为 [0, +∞)。

  • 接近零的值意味着结果在不同方面的分布类似。

  • 正值意味着标签分布差异,分歧越积极就越大。