使用亚马逊准备 ML 数据SageMakerDATA Wangler - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用亚马逊准备 ML 数据SageMakerDATA Wangler

亚马逊SageMaker数据 Wrangler(Data Wrangler)是亚马逊的一项功能SageMaker工作室提供end-to-end用于导入、准备、转换、特征化和分析数据的解决方案。您可以将 Data Wrangler 数据流集成到机器学习 (ML) 工作流程中,以简化和简化数据预处理和功能工程,几乎不需要编码即可。您还可以添加自己的 Python 脚本和转换以自定义工作流程。

以下是 Data Wrangler 为帮助您分析和准备机器学习应用程序的数据而提供的核心功能。

  • 导入— Connect 到 Amazon Simple Storage Service (Amazon S3) 并从中导入数据,Amazon Athena(Athena)和 Amazon Redshift。

  • 数据流— 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流程合并来自不同数据源的数据集,确定要应用于数据集的转换数量和类型,并定义可以集成到 ML 管道中的数据准备工作流程。

  • 转换— 使用标准清理和转换数据集变换例如字符串、矢量和数字数据格式化工具。使用文本和日期/时间嵌入以及分类编码等转换来为数据添加特色。

  • 分析— 在流中的任何时间点分析数据集中的要素。Data Wrangler 包括内置的数据可视化工具,例如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以了解特征相关性。

  • Export— Data Wrangler 提供向其他出口选项SageMaker服务,包括数据 Wrangler 职位、亚马逊SageMaker功能商店和管道,使您能够将数据准备流程集成到机器学习工作流程中。您还可以将数据 Wrangler 流程导出为 Python 代码。

要开始使用 Data Wrangler,请参阅使用数据 Wrangler.