为训练前数据中的偏差生成报告 SageMaker 工作室 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为训练前数据中的偏差生成报告 SageMaker 工作室

SageMaker 澄清与亚马逊集成 SageMaker Data Wrangler,它可以帮助您识别数据准备过程中的偏差,而无需编写自己的代码。数据 Wrangler 提供了 end-to-end 使用亚马逊导入、准备、转换、特色化和分析数据的解决方案 SageMaker Studio。有关 Data Wrangler 数据准备工作流的概述,请参阅使用亚马逊准备 ML 数据 SageMaker DATA Wrangler. 您可以指定感兴趣的属性,例如性别或年龄,并 SageMaker 澄清运行一组算法来检测这些属性中是否存在偏见。算法运行后, SageMaker 澄清提供了一份直观报告,其中描述了可能偏见的来源和严重程度,以便您可以规划缓解措施。例如, 在一个财务数据集中, 与其他年龄组相比, 向一个年龄组提供商业贷款的例子很少, SageMaker 标记不平衡状态,以便您可以避免使用不利于该年龄组的模型。

分析和报告数据偏差

要开始使用 Data Wrangler,请参阅首先使用数据 Wrangler.

  1. 打开亚马逊 SageMaker 选择录音室创建数据流来自 的导入和准备数据瓷砖。

    
                        在数据 Wrangler 中创建数据流。
  2. 导入数据选项卡上,选择Amazon S3然后在数据源/S3 源页.

    
                        导入数据。
  3. 导入数据后,请在数据流页面然后选择添加分析.

    
                        为导入的数据添加分析。
  4. 在存储库的创建分析页面,转至配置面板然后选择偏置报告来自 的图表菜单。

    
                        映像的描述。
  5. 通过提供名称、要预测的列以及它是值还是阈值、要分析偏差的列(小面)以及它是值还是阈值。

    
                        配置偏见报告 1.
  6. 通过选择偏差指标继续配置偏差报告。

    
                        选择偏置指标。
  7. 选择检查偏差以生成和查看偏见报告。向下滚动以查看所有报告。

    
                        生成并查看偏差报告。
  8. 选择偏差指标描述右侧的插入符号,以查看可以帮助您解释指标值重要性的文档。

    
                        帮助解释数据偏差指标。
  9. 要查看偏差指标值的表格摘要,请选择表格,您可以通过选择以保存报告以供导出Create位于页面的右下角。

    
                        查看偏差指标值的表格摘要保存报告。
  10. 在存储数据偏差报告的页面上,选择Export选项卡以下载报告。

    
                        数据偏差报告。