SHAP 可解释性基准 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

SHAP 可解释性基准

解释通常是对比性的(也就是说,它们解释了与基准的偏差)。因此,对于同一个模型预测,不同的基准会有不同的解释。因此,基准的选择至关重要。在机器学习环境中,基准对应于一个假设的实例,该实例既可能是非信息性,也可能是信息性。在计算 Shapley 值的过程中,SageMaker Clarify 会在基准和给定实例之间生成几个新实例,在这些实例中,通过将特征值设置为基准的特征值来模拟不存在特征,通过将特征值设置为给定实例的特征值来模拟存在特征。因此,不存在所有特征时对应基准,存在所有特征时对应给定实例。

如何选择合适的基准? 通常,最好选择信息含量非常低的基准。例如,可以通过取数值特征的中位数或平均值以及类别特征的模式,根据训练数据集来构造平均实例。在大学录取的例子中,您可能有兴趣解释为什么某个申请人会被录取,而不是基于平均申请人的基准进行录取。如果没有提供基准,SageMaker Clarify 会使用输入数据集中的 K-means 或 K-prototypes 自动计算基准。

或者,您可以选择生成有关信息性基准的说明。在大学录取场景中,您可能需要解释为什么某个申请人会被拒绝,而其他具有相似人口统计背景的申请人未被拒绝。在这种情况下,您可以选择一个能代表相关申请人的基准,即人口统计背景相似的申请人。因此,您可以使用信息性基准来集中分析特定模型预测的特定方面。您可以通过将人口统计属性和其他无法执行的特征设置为与给定实例中的值相同,从而分离出这些特征以进行评估。