本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Studio 中生成训练前数据偏差报告 SageMaker
SageMaker Clarify 与 Amazon SageMaker Data Wrangler 集成,它可以帮助您在数据准备过程中识别偏见,而无需自己编写代码。Data Wrangler 提供了一种使用 Amazon Studio 导入、准备、转换、特征化和分析数据的 end-to-end解决方案。 SageMaker 有关 Data Wrangler 数据准备工作流的概述,请参阅使用 Amazon Data Wrangler 准备机器学习 SageMaker 数据。
您可以指定感兴趣的属性,例如性别或年龄,Clar SageMaker ify 会运行一组算法来检测这些属性中是否存在偏差。算法运行后,Cl SageMaker arify 会提供一份可视化报告,其中描述了可能存在的偏见的来源和严重程度,以便您可以计划缓解措施。例如,在包含与其他年龄组相比,向一个年龄组提供的商业贷款示例很少的财务数据集中,会 SageMaker 标记不平衡现象,这样您就可以避免使用不利于该年龄组的模型。
分析和报告数据偏差
要开始使用 Data Wrangler,请参阅 开始使用 Data Wrangler。
-
在 Amazon SageMaker Studio Classic 中,从左侧面板的 “主页” ( ) 菜单中导航到 “数据” 节点,然后选择 D ata Wrang ler。这将在 Studio Classic 中打开 Data Wrangler 登录页面。
-
选择 + 导入数据按钮以创建新流程。
-
在流程页面中,从导入选项卡中选择 Amazon S3,导航到您的 Amazon S3 存储桶,找到您的数据集,然后选择导入。
-
导入数据后,在数据流选项卡的流图上,选择数据类型节点右侧的 + 符号。
-
选择添加分析。
-
在创建分析页面上,为分析类型选择偏差报告。
-
通过提供报告名称、要预测的列以及它是值还是阈值、要分析偏差的列(分面)以及它是值还是阈值,配置偏差报告。
-
通过选择偏差指标继续配置偏差报告。
-
选择检查偏差以生成并查看偏差报告。向下滚动以查看所有报告。
-
选择每个偏差指标描述右侧的插入符号,查看可帮助您解释指标值重要性的文档。
-
要查看偏差指标值的表格摘要,请选择表格开关。要保存报告,请选择页面右下角的保存。您可以在数据流选项卡的流图上查看报告。双击报告将其打开。