使用 准备 ML 数据 Amazon SageMaker Data Wrangler - Amazon SageMaker
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 准备 ML 数据 Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler (Data Wrangler) 是 SageMaker Studio 的一项功能,提供端到端解决方案来导入、准备、转换、特征化和分析数据。您可以将Data Wrangler数据流集成到机器学习 (ML) 工作流中,以使用少量编码或完全无编码来简化和简化数据预处理和特征设计。您还可以添加自己的 Python 脚本和转换以自定义Data Wrangler数据准备工作流程。

以下是 Data Wrangler 提供的核心功能,可帮助您为机器学习应用程序分析和准备数据。

  • 导入 – 连接到 Amazon Simple Storage Service (Amazon S3)、 Amazon Athena (Athena) 和 并导入数据Amazon Redshift。

  • 数据流 – 创建数据流以定义一系列 ML 数据准备步骤。您可以使用流组合来自不同数据源的数据集,确定要应用于数据集的转换的数量和类型,并定义可轻松集成到 ML 管道中的数据准备工作流程。

  • Transform (转换)– 使用标准转换(如字符串、向量和数字数据格式化工具)清理和转换数据集。使用转换(如文本、日期/时间嵌入和分类编码)来特征化您的数据。

  • 分析–数据集中的任何时间点的特征。 Data Wrangler 包含内置的数据可视化工具,如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以便了解特征关联。

  • Export 为其他 – 服务(包括Data Wrangler任务、功能存储和管道SageMakerData Wrangler)提供导出选项,使您能够轻松地将数据准备流集成到 ML 工作流程中。您还可以将Data Wrangler流导出到 Python 代码。

要开始使用 Data Wrangler,请参阅Data Wrangler 入门