本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
什么是 Machine Learning 预测的公平性和模型可解释性?
Amazon SageMaker Clarify 检测潜在偏见并帮助解释模型所做的预测,以此帮助改善您的机器学习(ML)模型。它可以帮助您识别在模型训练期间或模型生产中可能出现的培训前数据和训练后可能出现的各种类型的偏见。SageMaker Clarify 帮助解释这些模型如何使用功能归因方法进行预测。它还监控模型在生产过程中针对偏见或功能归因偏移所做的推断。SageMaker Clary 提供的公平性和可解释性功能提供了帮助的组件Amazon客户构建的机器学习模型不那么偏见且更容易理解。它还提供了一些工具来帮助您生成模型监管报告,供您用来告知风险和合规团队以及外部监管机构。
越来越多地使用机器学习模型和数据驱动系统来帮助跨领域做出决策,例如金融服务、医疗保健、教育和人力资源。机器学习应用程序提供了诸如提高准确性、提高生产力和成本节约等优势,以帮助满足法规要求、改善业务决策,并提供更好的数据科学程序洞察。
-
监管— 在许多情况下,了解机器学习模型为什么进行特定预测,以及它所做的预测是否受到任何偏见的影响,无论是在训练期间还是推断时都是很重要的。最近,决策者、监管者和倡导者提高了人们对 ML 和数据驱动系统构成的道德和政策挑战的认识。特别是,他们对此类系统可能产生的歧视性影响表示关切(例如,无意中将偏见引入自动决策)。
-
业务— 在受监管领域采用 AI 系统需要信任,可以通过对训练模型的行为以及部署的模型如何作出预测提供可靠的解释来建立信任。对于某些具有可靠性、安全性和合规性要求的行业,例如金融服务、人力资源、医疗保健和自动化运输,模型可解释性可能尤为重要。举一个常见的财务例子,纳入了 ML 模型使用的贷款应用程序可能需要解释这些模型如何向内部贷款官员、客户服务代表和预测员以及最终用户/客户组成的团队作出某些预测。
-
数据科学— 数据科学家和机器学习工程师需要工具来生成通过更好的特征工程调试和改进机器学习模型所需的见解,以确定模型是基于嘈杂或不相关的特征进行推断,并了解其模型和故障模式的局限性模特可能会遇到。
有关展示如何构建和构建涉及欺诈性汽车索赔的完整机器学习用例的博客,该用例将 SageMaker Clary 集成到 SageMaker 管道中,请参阅使用构建和构建完整的机器学习生命周期Amazon:端到端到端 Amazon SageMaker
在机器学习生命周期中评估公平性和可解性的最佳实践
公平即过程— 偏见和公平的概念在很大程度上取决于申请。此外,要衡量偏见的属性的选择以及偏见指标的选择可能需要以社会、法律和其他非技术考虑为指导。在关键利益相关方(例如产品、政策、法律、工程和 AI/ML 团队以及最终用户和社区)之间建立共识并实现协作,是在实践中成功采用公平意识到的机器学习方法的先决条件。
机器学习生命周期中的设计公平性和可解释性— 您应该考虑机器学习生命周期的每个阶段的公平性和可解释性:问题形成、数据集构建、算法选择、模型训练过程、测试流程、部署和监控/反馈。拥有正确的工具来进行此分析非常重要。为了鼓励参与这些考虑因素,以下是我们建议您在每个阶段提出的几个示例问题。

示例笔记本
Amazon SageMaker Clarify 提供以下示例笔记本:
-
借助 Amazon SageMaker Clary 进行可解释性和偏见检测
— 使用 SageMaker Clarine 创建处理作业,以检测偏差并使用功能属性解释模型预测。 -
监控偏差漂移和功能归因漂移 Amazon SageMaker 澄清
— 使用 Amazon SageMaker 模型监视器监控一段时间内的偏差漂移和功能归因偏差。 -
SageMaker 澄清(自带容器)的公平性和可解释性
— 本示例笔记本介绍了解 SageMaker Clarine 所需的关键术语和概念,并引导您完成端到端的数据科学工作流程,演示如何构建自己的模型和容器,这些模型和容器可以与澄清作业无缝协作、使用模型和 SageMaker Clarine 来衡量偏差,解释各种输入功能对模型决策的重要性,然后通过 SageMaker Studio 访问报告(如果您已设置实例)。 -
SageMaker Clary 的公平性和可解释性-Spark 分布式处理
— 此示例笔记本将引导您了解理解 SageMaker Clarine 所需的关键术语和概念,衡量数据集的训练前偏差和模型的训练后偏差,解释了各种输入要素对模型决策的重要性,并通过 SageMaker Studio 访问报告,如果你已经设置了实例。 -
缓解偏见,训练另一个公正的模型并放入模型注册表
— 本笔记本介绍了如何使用 SageMaker Clarine 检测偏差,并通过合成少数过采样技术(SMOTE) ,训练另一个模型,然后将其连同过程中创建的所有工件的世系一起放入模型注册表中:数据、代码和模型元数据。本笔记本是一个系列的一部分,该系列展示了如何将 SageMaker Clary 集成到 SageMaker 管道中,如使用构建和构建完整的机器学习生命周期Amazon 博客。
这些笔记本已验证仅在 Amazon SageMaker Studio 中运行。如果您需要有关如何在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅创建或打开亚马逊 SageMaker Studio Notebook. 如果系统会提示您选择内核,请选择Python 3(数据科学).
SageMaker 澄清文档指南
在机器学习生命周期的每个阶段:训练模型之前和模型训练之后,都可能会发生偏差并在数据中进行衡量。SageMaker Clarity 可以为训练模型和部署到生产的模型提供模型预测的功能归因说明,在这些模型中,可以监控模型是否有偏离其基线解释性属性的任何偏移。澄清在需要时计算基线。SageMaker Clary 的文档嵌入在相关机器学习阶段的较大的 SageMaker 文档集中,如下所示:
-
有关在用于训练模型之前检测预处理数据中的偏差的更多信息,请参阅检测训练前数据偏差.
-
有关检测训练后数据和模型偏差的更多信息,请参阅使用亚马逊检测训练后数据和模型偏差 SageMaker 澄清.
-
有关在训练后解释模型预测的与模型无关的功能归因方法的更多信息,请参阅亚马逊 SageMaker 澄清模型的可解释性.
-
有关监控由于数据偏离用于训练模型的基线而导致的生产模型推断中的偏差的更多信息,请参阅监控生产中模型的偏差漂移.
-
有关监控要素贡献偏离模型训练期间建立的基线的更多信息,请参阅监控生产中模型的功能归因漂移.