Kullback-Leibler 分歧 (KL)

Kullback-Leibler 分歧 (KL) 衡量分面 a 的观测标签分布 P_a(y) 与分面 d 的观测标签分布 P_d(y) 有多大偏差。它也称为 P_a(y) 相对于 P_d(y) 的相对熵，它量化了从 P_a(y) 移动到 P_d(y) 时丢失的信息量。

Kullback-Leibler 分歧的公式如下：

KL(P_a || P_d) = ∑_yP_a(y)_*log[P_a(y)/P_d(y)]

它是对概率 P_a(y) 和 P_d(y) 之间对数差的期望，其中期望值由概率 P_a(y) 加权。这不是分布之间的真正距离，因为它是不对称的，不满足三角形不等式。该实现使用自然对数，得出以奈特为单位的 KL。使用不同的对数基数可以得到成比例的结果，但单位不同。例如，使用基数 2 可以得出以位为单位的 KL。

例如，假设一组贷款申请人（分面 d）的批准率为 30%，而其他申请人（分面 a）的批准率为 80%。Kullback-Leibler 公式给出了分面 a 与分面 d 的标签分布差异，如下所示：

KL = 0.8*ln(0.8/0.3) + 0.2*ln(0.2/0.7) = 0.53

此处的公式中有两个项，因为在本例中，标签是二进制的。除二进制标签外，此衡量标准还可应用于多个标签。例如，在大学录取场景中，假设可能为申请人分配三个类别标签之一：y_i = {y₀, y₁, y₂} = {拒绝, 候补, 录取}。

二进制、多类别和连续结果的 KL 指标的值范围为 [0, +∞)。

接近零的值意味着不同分面的结果分布情况相似。
正值表示标签分布存在差异，正值越大，差异就越大。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

标签不平衡 (DPL)

Jensen-Shannon 分歧 (JS)