类不平衡 (CI) - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

类不平衡 (CI)

当分面值 d 与数据集中的另一个分面 a 相比具有较少的训练样本时,会出现类不平衡 (CI) 偏差。这是因为模型会以较小分面为代价优先适合较大分面,因此会导致分面 d 的训练错误更高。模型还存在过度拟合较小数据集的较高风险,这可能会导致分面 d 出现更大的测试错误。考虑这样一个例子:机器学习模型主要根据来自中间阶段的个人的数据进行训练,在进行涉及年老人员的预测时,它可能不太准确。

(标准化)分面不平衡度量的公式:

        CI = (n)a - nd)/(na + nd)

其中 na 是分面 a 和 n 的成员数d 分面 d 的数量。它的值范围为 [-1, 1]。

  • 正 CI 值表示 分面 数据集中具有更多训练样本,而值 1 表示数据仅包含分面 a 的成员。

  • CI 值接近零表示在分面之间更均匀的成员分布,值 0 表示在分面之间完全相等的分区,并表示训练数据中样本的平衡分布。

  • 负 CI 值表示分面 d 在数据集中具有更多训练样本,值 -1 表示数据仅包含分面 d 的成员。

  • 接近任一极值 -1 或 1 的 CI 值非常不平衡,并且存在进行有偏差预测的巨大风险。

如果发现分面之间存在明显的分面不平衡,您可能希望在继续在分面上训练模型之前重新平衡样本。