什么是 Machine Learning 预测的公平性和模型解释? - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Machine Learning 预测的公平性和模型解释?

Amazon SageMaker Crear 通过检测潜在偏差并帮助解释模型的预测,帮助改进您的机器学习 (ML) 模型。它可以帮助您识别训练前数据和训练后期间可能出现的各种类型的偏差,这些偏差在模型训练中或在模型生产中。SageMaker 澄清有助于解释这些模型如何使用要素归因方法进行预测。它还监控生产中模型的偏差或特征归因漂移。SageMaker 澄清提供的公平性和解释性功能提供了帮助Amazon客户构建更少偏见、更易理解的机器学习模型。它还提供了帮助您生成模型治理报告的工具,您可以使用这些报告告告知风险和合规团队以及外部监管机构。

机器学习模型和数据驱动型系统越来越多地用于帮助跨领域(如金融服务、医疗保健、教育和人力资源)做出决策。机器学习应用程序提供了诸如提高准确性、提高生产力和节约成本等优势,以帮助满足法规要求、改进业务决策并提供对数据科学流程的更好见解。

  • 监管— 在许多情况下,重要的是要了解 ML 模型为什么进行了特定的预测,以及它所做的预测是否受到任何偏差的影响,无论是在训练还是推断。最近,政策制定者、监管者和倡导者提高了人们对洗钱和数据驱动型系统带来的道德和政策挑战的认识。特别是,他们对此类制度可能产生的歧视性影响表示关切(例如,无意中将偏见编码为自动决定)。

  • 业务— 在受监管领域中采用 AI 系统需要信任,可以通过对训练模型的行为以及部署模型如何进行预测提供可靠的解释来构建信任。对于某些具有可靠性、安全性和合规性要求的行业(如金融服务、人力资源、医疗保健和自动化运输)来说,模型解释可能特别重要。举一个常见的财务例子,纳入使用 ML 模型的借贷应用程序可能需要解释这些模型是如何向内部贷款干事、客户服务代表和预测员以及最终用户/客户之外的团队作出某些预测的。

  • 数据科学— 数据科学家和 ML 工程师需要工具来生成通过更好的特征工程调试和改进 ML 模型所需的见解,以确定模型是否基于噪音或不相关的特征进行推断,并了解其模型和故障模式的局限性模型可能会遇到。

有关展示如何构建和构建涉及欺诈性汽车声明的完整机器学习用例(将 SageMaker Crear 集成到 SageMaker 管道中)的博客,请参阅构建和构建完整的机器学习生命周期Amazon:端到端到端 Amazon SageMaker演示。本博客讨论如何评估训练前和训练后的偏差,如何减少偏差,以及数据要素如何影响预测。存在指向 ML 生命周期中每个任务的相关代码的链接,包括创建一个自动化的工作流程,该工作流将 SageMaker Crear 的公平性和解释性功能集成到 SageMaker 管道中。

在 ML 生命周期中评估公平性和解释性的最佳实践

公平作为一个过程— 偏见和公平的概念在很大程度上取决于应用程序。此外,要衡量偏差的属性以及偏差衡量标准的选择可能需要以社会、法律和其他非技术考虑为指导。在关键利益相关方(例如产品、政策、法律、工程和人工智能/ML 团队以及最终用户和社区)之间建立共识并实现协作,是在实践中成功采用公平性意识型 ML 方法的先决条件。

ML 生命周期中的设计公平性和解释性— 您应在 ML 生命周期的每个阶段考虑公平性和解释性:问题形成、数据集构建、算法选择、模型培训流程、测试流程、部署和监控/反馈。必须拥有正确的工具来进行这种分析。为了鼓励参与这些注意事项,以下是我们建议您在每个阶段提出的几个示例问题。


                评估公平性和模型解释过程的最佳实践。

示例笔记本

Amazon SageMaker Caker C明确提供以下示例笔记本:

这些笔记本电脑已经验证仅在 Amazon SageMaker 工作室中运行。如果您需要有关在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅以及。创建或打开 Amazon SageMaker 工作室笔记本电脑. 如果系统提示您选择内核,请选择Python 3(数据科学).

SageMaker 指南澄清文档

在机器学习生命周期的每个阶段,可以发生偏差并测量数据:训练模型之前和模型训练之后。SageMaker Clar 可以为经过培训的模型和部署到生产的模型提供模型预测的特征归因解释,在这些模型中,可以监控模型是否偏离其基线解释属性的任何偏差。在需要时澄清计算基线。SageMaker 澄清的文档包含在相关 ML 阶段的更大 SageMaker 文档集中,如下所示: