机器学习预测的公平性和模型可解释性是什么? - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

机器学习预测的公平性和模型可解释性是什么?

Amazon SageMaker Clarify 可检测潜在偏差并帮助解释模型所做的预测,从而帮助改进机器学习 (ML) 模型。它可以帮助您识别训练前数据和训练后数据中的各类偏差,这些偏差可能在模型训练过程中或模型投入生产时出现。SageMaker Clarify 有助于解释这些模型如何使用特征归因方法进行预测。它还监控模型在生产过程中针对偏差或特征归因偏移所做的推理。SageMaker Clarify 提供的公平性和可解释性功能提供的组件可帮助 Amazon 客户构建偏差更小且更易于理解的机器学习模型。它还提供了一些工具来帮助您生成模型监管报告,供您用来告知风险和合规团队以及外部监管机构。

机器学习模型和数据驱动的系统正越来越多地用于帮助在金融服务、医疗保健、教育和人力资源等领域做出决策。机器学习应用程序具有提高准确性、提高工作效率和节省成本等优势,有助于满足监管要求,改进业务决策,并为数据科学过程提供更好的见解。

  • 监管 - 在许多情况下,必须了解机器学习模型为何会做出特定预测,以及在训练或推理过程中,它做出的预测是否受到任何偏差的影响。最近,政策制定者、监管机构和倡导者提高了对机器学习和数据驱动系统带来的道德和政策挑战的认识。特别是,他们对此类系统可能产生的歧视性影响(例如,无意中将偏差编码到自动决策中)表示关切。

  • 业务 - 在受监管的领域采用 AI 系统需要信任,通过对已训练模型的行为以及已部署模型如何进行预测提供可靠的解释,可以建立信任。对于某些在可靠性、安全性和合规性方面有要求的行业(如金融服务、人力资源、医疗保健和自动运输),模型可解释性可能尤为重要。举个常见的金融例子,结合使用机器学习模型的贷款应用程序可能需要向内部团队(包括贷款专员、客户服务代表和预测人员)以及最终用户/客户解释这些模型是如何做出某些预测的。

  • 数据科学 - 数据科学家和机器学习工程师需要使用工具生成所需的见解,以便通过更好的特征工程来调试和改进机器学习模型,确定模型是基于噪声特征还是不相关特征进行推理,并了解模型的局限性和模型可能遇到的故障模式。

有关展示如何设计和构建完整的机器学习使用案例(其中涉及将 SageMaker Clarify 集成到 SageMaker 管道中的欺诈性汽车索赔)的博客,请参阅使用 Amazon 设计和构建完整的机器学习生命周期:端到端 Amazon SageMaker 演示。此博客讨论了如何评估训练前后的偏差,如何减小偏差,以及数据特征如何影响预测。里面提供了指向机器学习生命周期中每项任务相关代码的链接,包括创建自动化工作流的任务,该工作流将 SageMaker Clarify 的公平性和可解释性功能集成到 SageMaker 管道中。

评估机器学习生命周期公平性和可解释性的最佳实践

公平即过程 - 偏差和公平的概念在很大程度上取决于应用程序。此外,在选择要测量偏差的属性和偏差指标时,可能需要考虑社会、法律和其他非技术因素。在关键利益相关者(如产品、政策、法律、工程和 AI/ML 团队,以及最终用户和社区)之间达成共识并实现协作,是在实践中成功采用具有公平意识的机器学习方法的先决条件。

通过设计实现机器学习生命周期的公平性和可解释性 - 在机器学习生命周期的每个阶段(问题形成、数据集构造、算法选择、模型训练过程、测试过程、部署和监控/反馈),您都应考虑公平性和可解释性。重要的是要有正确的工具来进行这种分析。为了鼓励您注意这些事项,我们建议您在每个阶段提出以下示例问题。


                评估公平性和模型可解释性过程的最佳实践。

示例笔记本

Amazon SageMaker Clarify 提供以下示例笔记本:

这些笔记本经过验证,只能在 Amazon SageMaker Studio 中运行。如果需要有关如何在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅创建或打开 Amazon SageMaker Studio 笔记本。如果系统提示您选择内核,请选择 Python 3 (Data Science)

SageMaker Clarify 文档使用指南

在机器学习生命周期的每个阶段(模型训练前和模型训练后),数据中都可能出现偏差,并可以测量偏差。SageMaker Clarify 可以为训练过的模型和部署到生产环境的模型提供模型预测的特征归因解释,并可监控模型是否存在任何偏离基准解释性归因的情况。Clarify 可在需要时计算基准。SageMaker Clarify 文档嵌入在相关机器学习阶段的大型 SageMaker 文档集中,如下所示: