使用 Amazon SageMaker er 数据牧羊人准备 ML 数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon SageMaker er 数据牧羊人准备 ML 数据

Amazon SageMaker 数据牧师(数据牧师)是 SageMaker Studio 的一项功能,它提供了端到端的解决方案,用于导入、准备、转换、功能化和分析数据。您可以将 Data Wrangler 数据流集成到机器学习 (ML) 工作流中,从而简化和简化数据预处理和特征工程,只需很少或无需编码即可。您还可以添加自己的 Python 脚本和转换以自定义工作流。

以下是 Data Wrangler 提供的核心功能,可帮助您分析和准备用于机器学习应用的数据。

  • 导入— Connect 到 Amazon Simple Storage Service (Amazon S3),并从中导入数据Amazon Athena(Athena) 和 Amazon Redshift.

  • 数据流— 创建数据流以定义一系列 ML 数据准备步骤。您可以使用流合并来自不同数据源的数据集,确定要应用于数据集的转换的数量和类型,以及定义可轻松集成到 ML 管道的数据准备工作流。

  • 转换— 使用标准的转换,例如字符串、矢量和数字数据格式化工具。使用文本和日期/时间嵌入和分类编码等变换功能对数据进行特征化。

  • 分析— 分析数据集中的要素在流中的任何点。Data Wrangler 包括内置的数据可视化工具,如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,用于了解特征相关性。

  • Export— Data Wrangler 为其他 SageMaker 服务提供了导出选项,包括数据牧师作业、要素存储和管道,使您可以轻松地将数据准备流程集成到您的 ML 工作流中。您还可以将数据牧师流导出为 Python 代码。

要开始使用数据 Wrangler,请参阅使用数据牧师入门.