使用 Shapley 值的要素属性 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Shapley 值的要素属性

SageMaker 澄清提供基于沙普利值. 可以使用 Shapley 值来确定每个要素对建模预测的贡献。这些属性可用于具体的预测,也可以在整个模型的全局层面提供。例如,如果您将 ML 模型用于大学录取,则说明可以帮助确定 GPA 或 SAT 分数是否是对模型预测负最大责任的功能,然后您可以确定每个功能在确定有关特定入学决定时的责任。学生。

SageMaker 澄清已经从游戏理论中采用了 Shapley 值的概念,并将其部署在机器学习环境中。Shapley 值提供了一种方法来量化每个玩家对游戏的贡献,因此可以根据玩家的贡献将游戏产生的总增益分配给玩家。在此机器学习上下文中,SageMaker Clear 将给定实例上的模型预测视为game和模型中包含的要素作为玩家. 对于第一个近似值,您可能会倾向于通过量化Drop模型中的要素或Drop模型中的所有其他特征。但是,这种方法并没有考虑到模型中包含的特征往往不是彼此独立的。例如,如果两个特征高度相关,则删除其中一个特征可能不会显著改变模型预测。

要解决这些潜在的依赖关系,Shapley 值要求必须考虑每个可能的要素组合(或联合)的结果,以确定每个要素的重要性。鉴定d功能,有 2d这种可能的特征组合,每个对应于一个潜在的模型。确定给定要素的归因f,请考虑包括f所有特征组合(和关联模型)中不包含f,并采取平均值。可以表明,Shapley 值是分配满足某些理想属性的每个要素的贡献或重要性的独特方式。特别是,每个要素的 Shapley 值的总和对应于模型预测与无特征的虚拟模型之间的差异。然而,即使对于合理的d,比如说 50 个功能,训练 2d可以选择的模式。因此,SageMaker 澄清需要使用各种近似技术。为此,SageMaker Clear 使用 Shapley 加法解释 (SHAP),其中包含了这些近似值,并通过额外的优化设计了一个可扩展且高效的内核 SHAP 算法的实现。

有关 Shapley 值的其他信息,请参阅一种统一解释模型预测的方法.