在 SageMaker 工作室中生成预训练数据偏差报告 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 SageMaker 工作室中生成预训练数据偏差报告

SageMaker 澄清与 Amazon SageMaker er 数据工作者集成,它可以帮助您识别数据准备过程中的偏差,而无需编写自己的代码。Data Wrangler 提供了一个端到端的解决方案,用于导入、准备、转换、Amazon SageMaker 征和分析数据。有关 Data Wrangler 数据准备工作流的概述,请参阅以及使用 Amazon SageMaker er 数据牧羊人准备 ML 数据. 您可以指定感兴趣的属性,例如性别或年龄,SageMaker Clelity 会运行一组算法来检测这些属性中是否存在偏差。算法运行后,SageMaker Clelity 会提供一个可视化报告,其中包含可能偏差的来源和严重程度的描述,以便您可以规划缓解措施。例如,在一个财务数据集中,与其他年龄组相比,与其他年龄组相比,SageMaker 会标记不平衡,以便您可以避免不利于该年龄组的模型。

分析和报告数据偏差

若要开始使用 Data Wrangler,请参阅以及使用数据牧师入门.

  1. 打开 Amazon SageMaker Studio 并选择创建数据流来自 的导入和准备您的数据瓷砖。

    
                        在数据工作者中创建数据流。
  2. 导入数据选项卡上,选择Amazon S3,然后在数据源/S3 源页.

    
                        导入数据。
  3. 导入数据后,选择数据流程页面,然后选择添加分析.

    
                        为导入的数据添加分析。
  4. 在存储库的创建分析页面上,转至配置面板,然后选择偏差报告来自 的TIMEST菜单。

    
                        映像的描述。
  5. 配置偏差报告,方法是提供名称、要预测的列以及它是值还是阈值、要分析偏差的列(小面)以及它是值还是阈值。

    
                        配置偏差报告 1.
  6. 通过选择偏差度量继续配置偏差报告。

    
                        选择偏置指标。
  7. 选择检查偏差以生成和查看偏差报告。向下滚动以查看所有报告。

    
                        生成并查看偏差报告。
  8. 选择偏差衡量指标描述右侧的胡萝卜,以查看有助于解释指标值显著性的文档。

    
                        帮助解释数据偏差衡量指标。
  9. 要查看偏差度量值的表摘要,请选择表格,您可以通过选择Create在页面右下角。

    
                        查看偏差度量值的表摘要保存报告。
  10. 在存储数据偏差报告的页面上,选择Export选项卡下载报告。

    
                        数据偏差报告。