什么是 Machine Learning 预测的公平性和模型可解释性? - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Machine Learning 预测的公平性和模型可解释性?

Amazon SageMaker Clarify 检测潜在偏见并帮助解释模型所做的预测,以此帮助改善您的机器学习(ML)模型。它可以帮助您识别在模型训练期间或模型生产中可能出现的培训前数据和训练后可能出现的各种类型的偏见。SageMaker Clarify 帮助解释这些模型如何使用功能归因方法进行预测。它还监控模型在生产过程中针对偏见或功能归因偏移所做的推断。SageMaker Clary 提供的公平性和可解释性功能提供了帮助的组件Amazon客户构建的机器学习模型不那么偏见且更容易理解。它还提供了一些工具来帮助您生成模型监管报告,供您用来告知风险和合规团队以及外部监管机构。

越来越多地使用机器学习模型和数据驱动系统来帮助跨领域做出决策,例如金融服务、医疗保健、教育和人力资源。机器学习应用程序提供了诸如提高准确性、提高生产力和成本节约等优势,以帮助满足法规要求、改善业务决策,并提供更好的数据科学程序洞察。

  • 监管— 在许多情况下,了解机器学习模型为什么进行特定预测,以及它所做的预测是否受到任何偏见的影响,无论是在训练期间还是推断时都是很重要的。最近,决策者、监管者和倡导者提高了人们对 ML 和数据驱动系统构成的道德和政策挑战的认识。特别是,他们对此类系统可能产生的歧视性影响表示关切(例如,无意中将偏见引入自动决策)。

  • 业务— 在受监管领域采用 AI 系统需要信任,可以通过对训练模型的行为以及部署的模型如何作出预测提供可靠的解释来建立信任。对于某些具有可靠性、安全性和合规性要求的行业,例如金融服务、人力资源、医疗保健和自动化运输,模型可解释性可能尤为重要。举一个常见的财务例子,纳入了 ML 模型使用的贷款应用程序可能需要解释这些模型如何向内部贷款官员、客户服务代表和预测员以及最终用户/客户组成的团队作出某些预测。

  • 数据科学— 数据科学家和机器学习工程师需要工具来生成通过更好的特征工程调试和改进机器学习模型所需的见解,以确定模型是基于嘈杂或不相关的特征进行推断,并了解其模型和故障模式的局限性模特可能会遇到。

有关展示如何构建和构建涉及欺诈性汽车索赔的完整机器学习用例的博客,该用例将 SageMaker Clary 集成到 SageMaker 管道中,请参阅使用构建和构建完整的机器学习生命周期Amazon:端到端到端 Amazon SageMaker演示。本博客讨论了如何评估培训前后的偏见、如何减少偏见以及数据功能如何影响预测。机器学习生命周期中每个任务的相关代码都有链接,包括创建自动化工作流程,该工作流程将 SageMaker Clary 的公平性和可解释性功能集成到 SageMaker Pipeline 中。

在机器学习生命周期中评估公平性和可解性的最佳实践

公平即过程— 偏见和公平的概念在很大程度上取决于申请。此外,要衡量偏见的属性的选择以及偏见指标的选择可能需要以社会、法律和其他非技术考虑为指导。在关键利益相关方(例如产品、政策、法律、工程和 AI/ML 团队以及最终用户和社区)之间建立共识并实现协作,是在实践中成功采用公平意识到的机器学习方法的先决条件。

机器学习生命周期中的设计公平性和可解释性— 您应该考虑机器学习生命周期的每个阶段的公平性和可解释性:问题形成、数据集构建、算法选择、模型训练过程、测试流程、部署和监控/反馈。拥有正确的工具来进行此分析非常重要。为了鼓励参与这些考虑因素,以下是我们建议您在每个阶段提出的几个示例问题。


                评估公平性和模型可解释性过程的最佳做法。

示例笔记本

Amazon SageMaker Clarify 提供以下示例笔记本:

这些笔记本已验证仅在 Amazon SageMaker Studio 中运行。如果您需要有关如何在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅创建或打开亚马逊 SageMaker Studio Notebook. 如果系统会提示您选择内核,请选择Python 3(数据科学).

SageMaker 澄清文档指南

在机器学习生命周期的每个阶段:训练模型之前和模型训练之后,都可能会发生偏差并在数据中进行衡量。SageMaker Clarity 可以为训练模型和部署到生产的模型提供模型预测的功能归因说明,在这些模型中,可以监控模型是否有偏离其基线解释性属性的任何偏移。澄清在需要时计算基线。SageMaker Clary 的文档嵌入在相关机器学习阶段的较大的 SageMaker 文档集中,如下所示: