班级失衡 (CI) - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

班级失衡 (CI)

分面值时会出现类别失衡 (CI) 偏差D与另一个方面相比,训练样本较少一个在数据集中。这是因为模型最好适合较大的面而牺牲较小的面面,因此可能会导致小平面的训练误差较高D. 模型也面临过度拟合较小的数据集的风险较高,这可能会导致小方面的测试错误更大D. 考虑机器学习模型主要根据中年人的数据进行培训的例子(方面 a),在进行涉及年轻人和老年人的预测时可能会不那么准确(方面 d)。

(标准化)小面不平衡衡量标准的公式:

        CI = (n)a-ndn)/(na+nd

n 在哪里a是 Facet 的成员数量一个和 nd分面的数量D. 它的值在时间间隔 [-1, 1] 范围内。

  • 正 CI 值表示方面一个数据集中有更多训练样本,值为 1 表示数据仅包含小平面的成员一个.

  • CI 值接近零表示小平面之间的成员分布更为平等,值为零表示小平面之间的分配完全相等,并表示训练数据中样本的平衡分布。

  • 负 CI 值表示方面D数据集中有更多训练样本,值为 -1 表示数据仅包含小平面的成员d.

  • 接近 -1 或 1 的极端值之一的 CI 值都非常不平衡,并且存在进行偏见预测的巨大风险。

如果发现各方面之间存在严重的小面不平衡,则可能需要在样本上训练模型之前重新平衡样本。