使用 “ SageMaker 澄清” 来解释和检测偏见 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 “ SageMaker 澄清” 来解释和检测偏见

本主题介绍如何理解公平性和模型可解释性,以及如何使用 Ama SageMaker zon Clarify 解释和检测偏见。您可以配置 Clari SageMaker fy 处理作业来计算偏差指标和特征归因,并生成模型可解释性报告。 SageMaker Claride 处理任务是使用专门的 Clarif SageMaker y 容器镜像实现的。以下说明向您展示了如何配置、运行 Clarify 处理作业和对其进行故障排除,以及如何配置分析。 SageMaker

机器学习预测的公平性和模型可解释性是什么?

机器学习 (ML) 模型正在帮助金融服务、医疗保健、教育和人力资源等领域做出决策。决策者、监管机构和倡导者提高了人们对机器学习和数据驱动系统带来的道德和政策挑战的认识。Ama SageMaker zon Clarify 可以帮助您了解您的机器学习模型做出特定预测的原因,以及这种偏见是否会影响训练或推理期间的预测。 SageMaker Clarify 还提供了可以帮助您构建偏见更少、更易于理解的机器学习模型的工具。 SageMaker Clarify 还可以生成模型治理报告,您可以将其提供给风险和合规团队以及外部监管机构。使用 C SageMaker larify,您可以执行以下操作:

  • 检测偏差并帮助解释您的模型预测。

  • 确定训练前数据中的偏差类型。

  • 确定训练后数据中可能在训练期间或模型投入生产时出现的偏差类型。

SageMaker Clarify 有助于解释您的模型如何使用特征归因进行预测。它还可以监控正在制作的推理模型,以了解偏差和特征归因漂移。这些信息可以在以下方面为您提供帮助:

  • 监管 — 政策制定者和其他监管机构可能会担心使用机器学习模型输出的决策会产生歧视性影响。例如,机器学习模型可能会对偏差进行编码并影响自动决策。

  • 业务 — 受监管的域名可能需要可靠的解释来解释机器学习模型是如何进行预测的。对于依赖可靠性、安全性和合规性的行业来说,模型的可解释性可能尤其重要。这些可能包括金融服务、人力资源、医疗保健和自动运输。例如,贷款申请可能需要解释机器学习模型是如何向贷款官员、预测员和客户做出某些预测的。

  • 数据科学 — 当数据科学家和机器学习工程师能够确定模型是否基于噪音或不相关的特征进行推断时,他们就可以调试和改进机器学习模型。他们还可以了解模型的局限性以及模型可能遇到的失效模式。

有关展示如何为欺诈性汽车索赔设计和构建完整的机器学习模型(将 Clarify 集成 SageMaker 到 SageMaker 管道中)的博客文章,请参阅架构师并使用 Amazon: end-to-endAmazon SageMaker 演示来构建完整的机器学习生命周期。这篇博文讨论了如何评估和缓解训练前和训练后的偏差,以及这些特征如何影响模型预测。博客文章包含机器学习生命周期中每项任务的示例代码链接。

评估机器学习生命周期公平性和可解释性的最佳实践

公平作为一个过程 — 偏见和公平的概念取决于其应用。偏见的衡量和偏见指标的选择可能以社会、法律和其他非技术因素为指导。成功采用具有公平意识的机器学习方法包括在关键利益相关者之间建立共识和实现协作。这些可能包括产品、政策、法律、工程、人工智能/机器学习团队、最终用户和社区。

机器学习生命周期中的@@ 公平性和可解释性 — 在机器学习生命周期的每个阶段都要考虑公平性和可解释性。这些阶段包括问题形成、数据集构建、算法选择、模型训练过程、测试过程、部署以及监控和反馈。重要的是要有正确的工具来进行这种分析。我们建议在机器学习生命周期中询问以下问题:

  • 该模型是否鼓励反馈循环,从而产生越来越不公平的结果?

  • 算法是问题的合乎道德的解决方案吗?

  • 训练数据是否代表不同的群体?

  • 标签或功能中是否存在偏差?

  • 是否需要修改数据以减轻偏见?

  • 目标函数中是否需要包含公平约束?

  • 是否使用相关的公平性指标对模型进行了评估?

  • 不同用户的影响是否不平等?

  • 模型是否部署在未对其进行训练或评估的人群上?

评估公平性和模型可解释性过程的最佳实践。

SageMaker 解释和偏见文档指南

在训练模型之前和之后,都可能发生偏差,也可以在数据中进行测量。 SageMaker Clarify 可以为训练后的模型预测以及部署到生产环境的模型提供解释。 SageMaker Clarify 还可以监控生产中的模型的基线解释性归因是否存在任何偏差,并在需要时计算基线。使用 SageMaker Clarify 解释和检测偏见的文档结构如下:

SageMaker 澄清处理任务的工作原理

您可以使用 Cl SageMaker arify 来分析数据集和模型的可解释性和偏差。Cl SageMaker arify 处理任务使用 Cl SageMaker arify 处理容器与包含您的输入数据集的 Amazon S3 存储桶进行交互。您还可以使用 Cl SageMaker arify 来分析部署到 SageMaker 推理端点的客户模型。

下图显示了 Clari SageMaker fy 处理任务如何与您的输入数据交互,也可以与客户模型进行交互。这种交互取决于所执行的特定分析类型。Cl SageMaker arify 处理容器从 S3 存储桶获取用于分析的输入数据集和配置。对于某些分析类型,包括特征分析,Clar SageMaker ify 处理容器必须向模型容器发送请求。然后,它从模型容器发送的响应中检索模型预测。之后,Clari SageMaker fy 处理容器进行计算并将分析结果保存到 S3 存储桶中。

SageMaker Clarify 可以分析您的数据或客户模型的可解释性和偏见。

您可以在机器学习工作流程生命周期的多个阶段运行 Clarify 处理作业。 SageMaker SageMaker Clarify 可以帮助您计算以下分析类型:

  • 训练前的偏见指标。这些指标可以帮助您了解数据中的偏差,以便您可以解决偏差,并在更公平的数据集上训练模型。衡量训练前偏差有关训练前偏差指标的信息,请参阅。要运行一项作业以分析训练前偏差指标,必须向 配置分析 提供数据集和 JSON 分析配置文件。

  • 训练后的偏见指标。这些指标可以帮助您了解算法引入的任何偏差、超参数选择或流程早期不明显的任何偏见。有关训练后偏差指标的更多信息,请参阅测量训练后数据和模型偏差。 SageMaker 除了数据和标签之外,Clarify 还使用模型预测来识别偏差。要运行一项作业以分析训练后偏差指标,必须提供数据集和 JSON 分析配置文件。配置应包括模型或端点名称。

  • Shapely 值,它可以帮助你了解你的特征会对模型预测的结果产生什么影响。有关 Shapely 值的更多信息,请参阅。使用 Shapley 值的特征归因此特征需要经过训练的模型。

  • 部分依赖图 (PDP),它可以帮助您了解如果改变一个特征的值,预测的目标变量将发生多大变化。有关 PDP 的更多信息,请参阅部分依赖图 (PDP) 分析此功能需要经过训练的模型。

SageMaker Clarify 需要模型预测来计算训练后的偏差指标和特征归因。您可以提供端点,否则 C SageMaker larify 将使用您的模型名称(也称为影子端点)创建一个临时端点。计算完成后, SageMaker Clarify 容器会删除影子端点。简而言之,Clari SageMaker fy 容器完成了以下步骤:

  1. 验证输入和参数。

  2. 创建影子端点(如果提供了模型名称)。

  3. 将输入数据集加载到数据框中。

  4. 如有必要,从端点获取模型预测。

  5. 计算偏差指标和特征归因。

  6. 删除影子端点。

  7. 生成分析结果。

Cl SageMaker arify 处理作业完成后,分析结果将保存在您在作业的处理输出参数中指定的输出位置。这些结果包括 JSON 文件(其中包含偏差指标和全局特征归因)、可视化报告以及用于局部特征归因的其他文件。您可以从输出位置下载结果并进行查看。

有关偏见指标、可解释性以及如何解释这些指标的更多信息,请参阅了解 Ama SageMaker zon Clarify 如何帮助检测偏见金融领域机器学习的公平衡量标准以及 A mazon AI 公平性与可解释性白皮书。

示例笔记本

以下各节包含笔记本,可帮助您开始使用 C SageMaker larify,将其用于特殊任务(包括分布式作业中的任务)以及计算机视觉。

开始使用

以下示例笔记本展示了如何使用 Clar SageMaker ify 开始执行可解释性和模型偏差任务。这些任务包括创建处理作业、训练机器学习 (ML) 模型和监控模型预测:

特殊案例

以下笔记本向您展示了如何使用 Clari SageMaker fy 来处理特殊情况,包括在您自己的容器内以及执行自然语言处理任务:

这些笔记本电脑已经过验证,可以在亚马逊 SageMaker Studio Classic 中运行。如果您需要有关如何在 Studio Classic 中打开笔记本的说明,请参阅创建或打开 Amazon SageMaker Studio 经典笔记本电脑。如果系统提示您选择内核,请选择 Python 3 (Data Science)