使用亚马逊准备 ML 数据 SageMaker DATA Wrangler - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用亚马逊准备 ML 数据 SageMaker DATA Wrangler

亚马逊 SageMaker 数据 Wrangler(Data Wrangler)是亚马逊的一项功能 SageMaker 工作室提供 end-to-end 用于导入、准备、转换、特征化和分析数据的解决方案。您可以将 Data Wrangler 数据流集成到机器学习 (ML) 工作流程中,以简化和简化数据预处理和功能工程,只需很少或不使用编码即可。您还可添加自己的 Python 脚本和转换以自定义工作流。

Data Wrangler 提供以下核心功能来帮助您分析和准备机器学习应用程序的数据。

  • 导入— Connect 到 Amazon Simple Storage Service (Amazon S3) 和从中导入数据,Amazon Athena(Athena)和 Amazon Redshift。

  • 数据流— 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流程合并来自不同数据源的数据集,确定要应用于数据集的转换数量和类型,并定义可以集成到 ML 管道中的数据准备工作流程。

  • 转换— 使用标准清理和转换数据集变换例如字符串、矢量和数字数据格式化工具。使用文本和日期/时间嵌入以及分类编码等转换来为数据添加特色。

  • 分析— 在流程中任意点分析数据集中的要素。Data Wrangler 包括内置的数据可视化工具,例如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以了解特征相关性。

  • Export— Data Wrangler 提供向其他出口选项 SageMaker 服务,包括数据 Wrangler 职位、亚马逊 SageMaker 功能商店和管道,使您能够将数据准备流程集成到机器学习工作流程中。您还可以将数据 Wrangler 流程导出为 Python 代码。

要开始使用 Data Wrangler,请参阅首先使用数据 Wrangler.