在 Studio 中生成训练前数据偏差报告 SageMaker - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Studio 中生成训练前数据偏差报告 SageMaker

SageMaker Clarify 与 Amazon SageMaker Data Wrangler 集成,它可以帮助您在数据准备过程中识别偏见,而无需自己编写代码。Data Wrangler 提供了一种使用 Amazon Studio 导入、准备、转换、特征化和分析数据的 end-to-end解决方案。 SageMaker 有关 Data Wrangler 数据准备工作流的概述,请参阅使用 Amazon Data Wrangler 准备机器学习 SageMaker 数据

您可以指定感兴趣的属性,例如性别或年龄,Clar SageMaker ify 会运行一组算法来检测这些属性中是否存在偏差。算法运行后,Cl SageMaker arify 会提供一份可视化报告,其中描述了可能存在的偏见的来源和严重程度,以便您可以计划缓解措施。例如,在包含与其他年龄组相比,向一个年龄组提供的商业贷款示例很少的财务数据集中,会 SageMaker 标记不平衡现象,这样您就可以避免使用不利于该年龄组的模型。

分析和报告数据偏差

要开始使用 Data Wrangler,请参阅 开始使用 Data Wrangler

  1. 在 Amazon SageMaker Studio Classic 中,从左侧面板的 “主页” ( Black square icon representing a placeholder or empty image. ) 菜单中导航到 “数据” 节点,然后选择 D ata Wrang ler。这将在 Studio Classic 中打开 Data Wrangler 登录页面

  2. 选择 + 导入数据按钮以创建新流程。

  3. 在流程页面中,从导入选项卡中选择 Amazon S3,导航到您的 Amazon S3 存储桶,找到您的数据集,然后选择导入

  4. 导入数据后,在数据流选项卡的流图上,选择数据类型节点右侧的 + 符号。

  5. 选择添加分析

  6. 创建分析页面上,为分析类型选择偏差报告

  7. 通过提供报告名称、要预测的列以及它是值还是阈值、要分析偏差的列(分面)以及它是值还是阈值,配置偏差报告。

  8. 通过选择偏差指标继续配置偏差报告。

    选择偏差指标。
  9. 选择检查偏差以生成并查看偏差报告。向下滚动以查看所有报告。

    生成并查看偏差报告。
  10. 选择每个偏差指标描述右侧的插入符号,查看可帮助您解释指标值重要性的文档。

  11. 要查看偏差指标值的表格摘要,请选择表格开关。要保存报告,请选择页面右下角的保存。您可以在数据流选项卡的流图上查看报告。双击报告将其打开。