机器学习预测的公平性和模型可解释性是什么?
Amazon SageMaker Clarify 可检测潜在偏差并帮助解释模型所做的预测,从而帮助改进机器学习 (ML) 模型。它可以帮助您识别训练前数据和训练后数据中的各类偏差,这些偏差可能在模型训练过程中或模型投入生产时出现。SageMaker Clarify 有助于解释这些模型如何使用特征归因方法进行预测。它还监控模型在生产过程中针对偏差或特征归因偏移所做的推理。SageMaker Clarify 提供的公平性和可解释性功能提供的组件可帮助 Amazon 客户构建偏差更小且更易于理解的机器学习模型。它还提供了一些工具来帮助您生成模型监管报告,供您用来告知风险和合规团队以及外部监管机构。
机器学习模型和数据驱动的系统正越来越多地用于帮助在金融服务、医疗保健、教育和人力资源等领域做出决策。机器学习应用程序具有提高准确性、提高工作效率和节省成本等优势,有助于满足监管要求,改进业务决策,并为数据科学过程提供更好的见解。
-
监管 - 在许多情况下,必须了解机器学习模型为何会做出特定预测,以及在训练或推理过程中,它做出的预测是否受到任何偏差的影响。最近,政策制定者、监管机构和倡导者提高了对机器学习和数据驱动系统带来的道德和政策挑战的认识。特别是,他们对此类系统可能产生的歧视性影响(例如,无意中将偏差编码到自动决策中)表示关切。
-
业务 - 在受监管的领域采用 AI 系统需要信任,通过对已训练模型的行为以及已部署模型如何进行预测提供可靠的解释,可以建立信任。对于某些在可靠性、安全性和合规性方面有要求的行业(如金融服务、人力资源、医疗保健和自动运输),模型可解释性可能尤为重要。举个常见的金融例子,结合使用机器学习模型的贷款应用程序可能需要向内部团队(包括贷款专员、客户服务代表和预测人员)以及最终用户/客户解释这些模型是如何做出某些预测的。
-
数据科学 - 数据科学家和机器学习工程师需要使用工具生成所需的见解,以便通过更好的特征工程来调试和改进机器学习模型,确定模型是基于噪声特征还是不相关特征进行推理,并了解模型的局限性和模型可能遇到的故障模式。
有关展示如何设计和构建完整的机器学习使用案例(其中涉及将 SageMaker Clarify 集成到 SageMaker 管道中的欺诈性汽车索赔)的博客,请参阅使用 Amazon 设计和构建完整的机器学习生命周期:端到端 Amazon SageMaker
评估机器学习生命周期公平性和可解释性的最佳实践
公平即过程 - 偏差和公平的概念在很大程度上取决于应用程序。此外,在选择要测量偏差的属性和偏差指标时,可能需要考虑社会、法律和其他非技术因素。在关键利益相关者(如产品、政策、法律、工程和 AI/ML 团队,以及最终用户和社区)之间达成共识并实现协作,是在实践中成功采用具有公平意识的机器学习方法的先决条件。
通过设计实现机器学习生命周期的公平性和可解释性 - 在机器学习生命周期的每个阶段(问题形成、数据集构造、算法选择、模型训练过程、测试过程、部署和监控/反馈),您都应考虑公平性和可解释性。重要的是要有正确的工具来进行这种分析。为了鼓励您注意这些事项,我们建议您在每个阶段提出以下示例问题。
示例笔记本
Amazon SageMaker Clarify 提供以下示例笔记本:
-
使用 Amazon SageMaker Clarify 进行可解释性和偏差检测
- 使用 SageMaker Clarify 创建处理作业,用于检测偏差并使用特征归因解释模型预测。 -
使用 Amazon SageMaker Clarify 监控偏差偏移和特征归因偏移
- 使用 Amazon SageMaker 模型监控器来监控随着时间推移而发生的偏差偏移和特征归因偏移。 -
SageMaker Clarify 的公平性和可解释性(自带容器)
- 此示例笔记本介绍了理解 SageMaker Clarify 所需的关键术语和概念,并引导您完成端到端数据科学工作流,该工作流向您演示了如何构建自己的模型和容器,使其能与您的 Clarify 作业无缝协作;如何使用模型和 SageMaker Clarify 来测量偏差;如何解释各种输入特征对模型决策的重要性;以及如何在设置了实例的情况下通过 SageMaker Studio 访问报告。 -
SageMaker Clarify 的公平性和可解释性 - Spark 分布式处理
- 此示例笔记本将向您介绍理解 SageMaker Clarify 所需的关键术语和概念,测量数据集的训练前偏差和模型的训练后偏差,解释各种输入特征对模型决策的重要性,并在您设置了实例的情况下通过 SageMaker Studio 访问报告。 -
减小偏差,训练另一个无偏差模型并放入模型注册表
- 此笔记本描述了如何使用 SageMaker Clarify 检测偏差,使用合成少数类过采样技术 (SMOTE) 来减小偏差,训练另一个模型,然后将其与在此过程中创建的构件的所有世系(数据、代码和模型元数据)一起放入模型注册表。此笔记本是系列笔记本的一部分,该系列展示了如何将 SageMaker Clarify 集成到使用 Amazon 设计和构建完整的机器学习生命周期 博客所述的 SageMaker 管道中。
这些笔记本经过验证,只能在 Amazon SageMaker Studio 中运行。如果需要有关如何在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅创建或打开 Amazon SageMaker Studio 笔记本。如果系统提示您选择内核,请选择 Python 3 (Data Science)。
SageMaker Clarify 文档使用指南
在机器学习生命周期的每个阶段(模型训练前和模型训练后),数据中都可能出现偏差,并可以测量偏差。SageMaker Clarify 可以为训练过的模型和部署到生产环境的模型提供模型预测的特征归因解释,并可监控模型是否存在任何偏离基准解释性归因的情况。Clarify 可在需要时计算基准。SageMaker Clarify 文档嵌入在相关机器学习阶段的大型 SageMaker 文档集中,如下所示:
-
有关在将预处理数据用于训练模型之前检测数据偏差的信息,请参阅检测训练前数据偏差。
-
有关检测训练后数据和模型偏差的更多信息,请参阅使用 Amazon SageMaker Clarify 检测训练后数据和模型偏差。
-
如需进一步了解用于解释训练后模型预测的与模型无关的特征归因方法,请参阅 Amazon SageMaker Clarify 模型可解释性。
-
有关监控因数据偏离用于训练模型的基准而导致的生产模型推理偏差的更多信息,请参阅监控生产中模型的偏差偏移。
-
有关监控特征贡献偏离模型训练期间确定的基准的更多信息,请参阅监控生产中模型的特征归因偏移。