使用 Shapley 值的特征归因 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Shapley 值的特征归因

SageMaker Clarify 根据 Shaple y 值的概念提供功能归因。您可以使用 Shapley 值来确定每项特征对模型预测的贡献。可以为特定的预测提供这些归因,也可以在全局层面为整个模型提供这些归因。例如,如果您使用机器学习模型进行大学录取,则解释可以帮助确定GPA或SAT分数是否是对模型预测负有最大责任的特征,然后您可以确定每个特征对决定特定学生的录取决定有多大的责任。

SageMaker Clarify从博弈论中汲取了Shapley价值观的概念,并将其部署在机器学习环境中。Shapley 值提供了一种量化每个玩家对游戏的贡献的方法,从而提供了一种根据玩家的贡献将游戏产生的总收益分配给玩家的方法。在这种机器学习环境中, SageMaker Clarify 将模型在给定实例上的预测视为游戏,将模型中包含的特征视为玩家。对于第一近似值,您可能想通过量化从模型中删除 该特征或从模型中删除 所有其他特征的结果,来确定每项特征的边际贡献或效果。然而,这种方法没有考虑到模型中包含的特征往往不是相互独立的。例如,如果两项特征高度相关,删除其中任一特征可能都不会对模型预测产生重大影响。

为了处理这些潜在的依赖关系,Shapley 值要求必须考虑每种可能的特征组合(或联合)的结果,以确定每项特征的重要性。给定 d 项特征,就有 2d 种这样的可能特征组合,每种组合对应一个潜在模型。要确定给定特征 f 的归因,请考虑在所有不包含 f 的特征组合(和关联模型)中包含 f 的边际贡献,然后取平均值。可以看出,Shapley 值是分配满足某些理想属性的每项特征的贡献或重要性的唯一方式。具体而言,每项特征的 Shapley 值之和对应于模型预测值和无特征虚拟模型预测值之差。然而,即使对于合理的 d 值(比如 50 项特征),要训练 2d 个可能的模型,在计算上也是非常困难和不切实际的。因此,Cl SageMaker arify 需要使用各种近似技术。为此,Clari SageMaker fy 使用了 Shapley Additive exPlanations (SHAP),它结合了这样的近似值,并通过额外的优化设计了一种可扩展且高效的内核SHAP算法实现。

有关 Shapley 值的更多信息,请参阅 A Unified Approach to Interpreting Model Predictions(解释模型预测的统一方法)。