用于解释的 SAP 基线 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

用于解释的 SAP 基线

如前所述, 解释通常是对比性的 (也就是说, 它们反映了偏离基准的情况). 因此,对于同一模型预测,您可能会对不同基线获得不同的解释,因此您选择基线至关重要。在 ML 上下文中,基线对应于假设实例,该实例可以是无信息或者信息. 在计算 Shapley 值的过程中,SageMaker Clar 在基线和给定实例之间生成多个新实例,在这些实例中,通过将要素值设置为基线值来建模特征的缺失,并通过将要素值设置为该特征值来建模特征的存在。给定实例的值。因此,缺少所有特征对应于基线,并且所有特征的存在与给定实例相对应。

如何选择良好的基线? 通常,最好选择一个信息内容非常低的基准。例如,通过采用数值要素的中位数或平均值以及类别要素的模式,可以从训练数据集构建平均实例。对于大学招生示例,您可能有兴趣解释为什么某个特定申请人被接受,而不是基于普通申请人的基准接受。如果未提供,则 SageMaker Clear 使用输入数据集中的 K 均值或 K 原型自动计算基线

或者,您也可以选择生成有关信息性基准的说明。对于大学入学方案,您可能希望解释为什么与具有相似人口背景的其他申请人相比,特定申请人被拒绝。在这种情况下,您可以选择表示感兴趣的申请人的基线,即具有类似人口统计背景的申请人。因此,您可以使用信息性基线将分析集中在特定模型预测的特定方面。您可以通过将人口统计属性和其他不能操作的要素设置为与给定实例中相同的值来隔离评估要素。