使用亚马逊准备 ML 数据 SageMaker DATA Wrangler - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用亚马逊准备 ML 数据 SageMaker DATA Wrangler

亚马逊 SageMaker 数据 Wrangler(Data Wrangler)是亚马逊的一项功能 SageMaker 工作室提供 end-to-end 用于导入、准备、转换、特征化和分析数据的解决方案。您可以将 Data Wrangler 数据流集成到机器学习 (ML) 工作流程中,以简化和简化数据预处理和功能工程,只需很少或不使用编码即可。您还可添加自己的 Python 脚本和转换以自定义工作流。

Data Wrangler 提供以下核心功能来帮助您分析和准备机器学习应用程序的数据。

  • 导入— Connect 到 Amazon Simple Storage Service (Amazon S3) 和从中导入数据,Amazon Athena(Athena)和 Amazon Redshift。

  • 数据流— 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流程合并来自不同数据源的数据集,确定要应用于数据集的转换数量和类型,并定义可以集成到 ML 管道中的数据准备工作流程。

  • 转换— 使用标准清理和转换数据集变换例如字符串、矢量和数字数据格式化工具。使用文本和日期/时间嵌入以及分类编码等转换来为数据添加特色。

  • 分析— 在流程中任意点分析数据集中的要素。Data Wrangler 包括内置的数据可视化工具,例如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以了解特征相关性。

  • Export— Data Wrangler 提供向其他出口选项 SageMaker 服务,包括数据 Wrangler 职位、亚马逊 SageMaker 功能商店和管道,使您能够将数据准备流程集成到机器学习工作流程中。您还可以将数据 Wrangler 流程导出为 Python 代码。

要开始使用 Data Wrangler,请参阅首先使用数据 Wrangler.