类别不平衡 (CI) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

类别不平衡 (CI)

类不平衡 (CI) 偏差发生时的小平面值D与其他面相比,训练样本较少a在数据集中。这是因为模型优先拟合较大的小面,而牺牲了较小的小面,因此可能导致多面的训练误差更高D. 模型也有较高的风险过度拟合较小的数据集,这可能会导致多面的测试误差D. 考虑一下机器学习模型主要根据来自中年人的数据进行培训的例子,在做出涉及年轻人和老年人的预测时,可能不太准确。

(归一化)面不平衡度量的公式:

        CI = (n)a-nd)/(na+nd

n 位置a是小平面成员的数量an 和 nd分面的数量D. 它的值在间隔 [-1, 1] 范围内。

  • 正 CI 值表示小平面a数据集中有更多的训练样本,值为 1 表示数据仅包含小平面的成员a.

  • CI 值接近零表示成员在小平面之间的分布更为平等,值为零表示小平面之间的分区完全相等,并表示训练数据中样本的平衡分布。

  • 负 CI 值表示小平面D在数据集中具有更多训练样本,值为-1 表示数据仅包含小平面的成员D.

  • 接近-1 或 1 的极值之一的 CI 值非常不平衡,并且存在进行偏差预测的重大风险。

如果发现小平面之间存在显著的小平衡,您可能希望在继续对样本进行模型训练之前重新平衡样本。