Machine Learning预测的公平性和模型可解释性是什么? - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Machine Learning预测的公平性和模型可解释性是什么?

Amazon SageMaker Clarify 通过检测潜在偏差并帮助解释模型进行的预测来帮助改进机器学习 (ML) 模型。它可帮助您确定在模型训练期间或当模型处于生产状态时可能会出现的预训练数据和训练后训练中的各种类型的偏差。 SageMaker Clarify 帮助说明这些模型如何使用特征归因方法进行预测。它还监控生产中针对偏差或特征归因偏差进行的推理。提供的公平性和可解释性功能SageMaker Clarify提供了一些组件,可帮助 AWS 客户构建偏差较少且更容易理解的机器学习模型。它还提供了帮助您生成模型监管报告的工具,您可以使用这些工具通知风险与合规性团队以及外部监管人员。

机器学习模型和数据驱动型系统正被用于帮助在金融服务、医疗保健、教育和人力资源等领域作出决策。机器学习应用程序提供了一些好处,例如,提高了准确性、提高了工作效率和节省了成本,以帮助满足法规要求、改进业务决策以及更好地了解数据科学过程。

  • 管理 – 在许多情况下,请务必了解 ML 模型进行特定预测的原因,以及做出的预测是否受训练期间或推理期间的任何偏差的影响。最近, 决策者、监管机构和宣传人员提高了对 ML 和数据驱动型系统所构成的逻辑和策略挑战的认识。特别是,他们担心此类系统的潜在差别影响 (例如,无意中将偏差编码到自动决策中)。

  • Business (业务–) 在受监管域中采用 AI 系统需要信任,可以通过提供有关训练模型行为的可靠说明以及部署的模型如何进行预测来构建此信任。模型可解释性对于具有可靠性、安全性和合规性要求的特定行业(如金融服务、人力资源、医疗保健和自动传输)可能尤其重要。要获取常见的财务示例,提供包含 ML 模型使用的应用程序时,可能需要说明这些模型如何对内部借方、客户服务代表和预测程序团队以及最终用户/客户进行某些预测。

  • 数据科学–数据科学家和 ML 工程师需要工具来生成通过更好的特征设计来调试和改进 ML 模型所需的见解,确定模型是基于噪点还是不相关的特征进行推理,以及了解模型及其模型可能遇到的失败模式的限制。

在 ML 生命周期中评估公平性和可解释性的最佳实践

过程的公平性 – 偏差和公平性概念高度依赖于应用程序和要测量其偏差的属性的选择,以及偏差指标的选择。这些选择应该遵循的是 Ethical、Business 和 Regulatory 注意事项。要成功采用公平且透明的 ML 应用程序,必须建立跨关键利益相关者(如产品、策略、法律、公共关系 (PR)、工程、AI/ML 团队、最终用户和社区)的共识并实现协作。

ML 生命周期中的公平性和可解释性 – 在 ML 生命周期的每个阶段,您均应考虑公平性和可解释性:问题构造、数据集构造、算法选择、模型训练过程、测试过程、部署和监控/反馈。拥有适当的工具来执行此分析非常重要。为了鼓励 参与这些注意事项,我们建议您在每个阶段提出以下几个示例问题。


                评估公平性和模型可解释性的过程的最佳实践。

示例笔记本

Amazon SageMaker Clarify 提供以下示例笔记本:

已验证这些笔记本仅在 Amazon SageMaker Studio 中运行。如果您需要有关如何在 Amazon SageMaker Studio 中打开笔记本的说明,请参阅创建或打开 Amazon SageMaker Studio 笔记本。如果系统提示您选择内核,请选择 Python 3 (Data Science) (Python 3 (数据科学))。

SageMaker Clarify 文档指南

偏差可在机器学习生命周期的每个阶段中的数据中发生和测量:在训练模型之前和模型训练之后。 SageMaker Clarify 可以为已训练模型和部署到生产环境的模型提供模型预测的特征归因说明,在其中可以监控模型是否存在距其基准说明归因的任何偏差。的文档SageMaker Clarify是嵌入在相关 ML 阶段设置的大型SageMaker文档,如下所示: