类别不平衡 (CI)

当数据集中一个分面值 d 比另一个分面值 a 的训练样本少时，就会出现类别不平衡 (CI) 偏差。这是因为模型会优先拟合较大的分面，而忽略较小的分面，因此会导致分面 d 的训练误差增大。模型对较小数据集过度拟合的风险也较高，这会导致分面 d 的测试误差增大。举个例子，如果机器学习模型主要根据中年人（分面 a）的数据进行训练，那么在做出涉及年轻人和老年人（分面 d）的预测时，其准确性可能会降低。

（标准化）分面不平衡的衡量公式：

CI = (n_a - n_d)/(n_a + n_d)

其中 n_a 是分面 a 的成员数，n_d 是分面 d 的成员数。它的值范围在 [-1, 1] 区间内。

正 CI 值表示分面 a 在数据集中有更多的训练样本，值为 1 表示数据仅包含分面 a 的成员。
接近零的 CI 值表示各分面之间的成员分布更加均衡，值为零表示各分面之间完全等分，表明训练数据中样本分布均衡。
负 CI 值表示分面 d 在数据集中有更多的训练样本，值为 -1 表示数据仅包含分面 d 的成员。
如果 CI 值接近 -1 或 1 这两个极值，则表示非常不平衡，很有可能导致预测结果有偏差。

如果发现各分面之间存在明显的不平衡，则对样本进行模型训练之前，可能需要重新平衡样本。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

训练前偏差指标

标签不平衡 (DPL)