使用假影值的特征属性 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用假影值的特征属性

SageMaker Clarify 根据 Shapley 值的概念提供特征属性。您可以使用 Shapley 值来确定每个特征对模型预测的贡献。可以为特定预测提供这些属性,可以为整个模型提供全局级属性。例如,如果您为大学准入使用 ML 模型,则说明可以帮助确定 GPA 或 SAT 分数是否是该模型预测的主要责任者,然后您可以确定每个特征在确定有关特定学生的准入决策的责任。

SageMaker Clarify 从游戏理论中采用了 Shapley 值的概念,并将其部署到机器学习上下文中。Shapley 值提供了一种方法来量化每个玩家对游戏的贡献,因此, 能够根据玩家的贡献将游戏产生的总收益分配给玩家。在此机器学习上下文中, SageMaker Clarify 将给定实例上的模型预测视为游戏,并将模型中包含的功能视为玩家。对于第一个近似值,您可以通过量化从模型中删除某个特征或从模型中删除所有其他特征的结果来确定每个特征的边缘贡献或效果。但是,这种方法不考虑模型中包含的功能通常并不相互独立。例如,如果两个特征高度相关,则删除任一特征可能不会显著改变模型预测。

为了解决这些潜在依赖项,Shapley 值要求必须考虑每个可能的功能组合(或联合)的结果来确定每个功能的重要性。给定 d 特征,有 2d 种可能的特征组合,每个组合对应于一个潜在模型。要确定给定特征 f 的署名,请考虑在不包含 f 的所有特征组合(和关联模型)中包含 f 的的边缘贡献,并取平均值。可以显示 Shapley 值是分配满足特定所需属性的每个特征的贡献或重要性的唯一方式。具体而言,每个特征的 Shapley 值之和对应于模型的预测与没有特征的虚拟模型之间的差异。但是,即使对于合理的 d 值,假设有 50 个特征,训练 2d 可能的模型在计算上也是禁止和不切实际的。因此, SageMaker Clarify 需要利用各种近似技术。为此, SageMaker Clarify 使用 SHAP SHapley Additive exPlanations (SHAP),它包含此类近似值并通过其他优化设计内核 SAP 算法的可扩展且高效的实施。

有关 Shapley 值的其他信息,请参阅解释模型预测的https://papers.nips.cc/paper/2017/file/8a20a8621978632d76c43dfd28b67767-Paper.pdf统一方法。