为 SageMaker Studio 中的预训练数据中的偏差生成报告 - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 SageMaker Studio 中的预训练数据中的偏差生成报告

SageMaker Clarify 与 集成Amazon SageMaker Data Wrangler,可帮助您在数据准备期间识别偏差,而无需编写自己的代码。 Data Wrangler 提供了端到端解决方案,以使用 Amazon SageMaker Studio 导入、准备、转换、特征化和分析数据。有关Data Wrangler数据准备工作流程的概述,请参阅使用 准备 ML 数据 Amazon SageMaker Data Wrangler。您指定感兴趣的属性(如性别或年龄), SageMaker Clarify 运行一组算法来检测这些属性中是否存在偏差。在算法运行后, SageMaker Clarify 会提供一个可视报告,其中包含对可能偏差的来源和严重性的描述,以便您可以计划缓解步骤。例如,在包含向一个期限组提供业务借给示例并且与其他期限组相比的金融数据集中, SageMaker 标记不平衡,以便您可以避免出现该期限组偏离的模型。

分析和报告数据偏差

要开始使用 Data Wrangler,请参阅Data Wrangler 入门

  1. 打开 Amazon SageMaker Studio 并从 Import and prepare your data 磁贴中选择 Create Data Flow。

    
                        在 Data Wrangler 中创建数据流。
  2. Import data (导入数据) 选项卡中,选择 Amazon S3 然后在 Data sources/S3 source (数据源S3 源) 页面上指定您的数据源

    
                        导入数据。
  3. 导入您的数据后,选择 Data flow (数据流) 页面上的加号,然后选择 Add Analysis (添加分析)。

    
                        为导入的数据添加分析。
  4. Create Analysis (创建分析) 页面上,转到 Configure (配置) 面板,然后从 Chart (图表) 菜单中选择 Bias Report (偏差报告)。

    
                        映像的描述。
  5. 通过提供 Name (名称)、要预测的列以及它是值还是阈值、要分析偏移的列(分面)以及它是值还是阈值来配置偏差报告。

    
                        配置偏差报告 1。
  6. 通过选择偏差指标继续配置偏差报告。

    
                        选择偏差指标。
  7. 选择检查偏差以生成和查看偏差报告。向下滚动以查看所有报告。

    
                        生成和查看偏差报告。
  8. 选择偏差指标描述右侧的 Carrot,以查看可帮助您解释指标值重要性的文档。

    
                        帮助解释数据偏差指标。
  9. 要查看偏差指标值的表摘要,请选择该表,您可以通过选择页面右下角的 Create (创建) 保存要导出的报告。

    
                        查看偏差指标值的表摘要以保存报告。
  10. 在存储数据偏差报告的页面上,选择 Export (导出) 选项卡以下载报告。

    
                        数据偏差报告。