使用 Amazon SageMaker Data Wrangler 准备机器学习数据
Amazon SageMaker Data Wrangler (Data Wrangler) 是 Amazon SageMaker Studio 的一项功能,可提供端到端解决方案,以导入、准备、转换、特征化和分析数据。您可以将 Data Wrangler 数据准备流集成到机器学习 (ML) 工作流中,以简化和精简数据预处理和特征工程,只需少量甚至无需编码。您还可以添加自己的 Python 脚本和转换,以自定义工作流。
Data Wrangler 可提供以下核心功能,帮助您分析和准备用于机器学习应用程序的数据。
-
导入 – 连接到 Amazon Simple Storage Service (Amazon S3)、Amazon Athena (Athena)、Amazon Redshift、Snowflake 和 Databricks,并从中导入数据。
-
数据流 – 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流合并来自不同数据源的数据集,确定要应用于数据集的转换数量和类型,并定义可集成到机器学习管线中的数据准备工作流。
-
转换 – 使用标准转换(如字符串、矢量和数字数据格式化工具)清理和转换数据集。使用转换(如文本和日期/时间嵌入以及分类编码)特征化数据。
-
生成数据见解 – 使用 Data Wrangler 数据见解和质量报告,自动验证数据质量并检测数据中的异常。
-
分析 – 在流中的任意点分析数据集中的特征。Data Wrangler 包括内置的数据可视化工具,如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以了解特征相关性。
-
导出 – 将数据准备工作流导出至其他位置。以下是一些示例位置:
-
Amazon Simple Storage Service (Amazon S3) 存储桶
-
Amazon SageMaker 建模管线 – 使用 SageMaker Pipelines 自动执行模型部署。您可以将转换后的数据直接导出至管线。
-
Amazon SageMaker Feature Store – 将特征及其数据存储在中央存放区。
-
Python 脚本 – 将数据及其转换存储在 Python 脚本中,用于您的自定义工作流。
-
要开始使用 Data Wrangler,请参阅开始使用 Data Wrangler。
重要
Data Wrangler 不再支持 Jupyter Lab 版本 1 (JL1)。要访问最新功能和更新,请更新为 Jupyter Lab 版本 3。有关升级的更多信息,请参阅从控制台查看和更新应用程序的 JupyterLab 版本。
重要
本指南中的信息和过程使用最新版本的 Amazon SageMaker Studio。有关将 Studio 更新为最新版本的信息,请参阅 Amazon SageMaker Studio UI 概述。
必须使用 Studio 版本 1.3.0 或更高版本。可使用以下过程打开 Amazon SageMaker Studio,查看您所运行的版本。
要打开 Studio 并检查其版本,请参阅以下过程。
-
按照先决条件中的步骤,通过 Amazon SageMaker Studio 访问 Data Wrangler。
-
在您希望用于启动 Studio 的用户旁,选择启动应用程序。
-
选择 Studio。
-
Studio 加载后,依次选择文件、新建和终端。
-
启动 Studio 后,依次选择文件、新建和终端。
-
输入
cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"
,打印 Studio 实例的版本。必须具有 Studio 版本 1.3.0,才能使用 Snowflake。
您可以从 Amazon Web Services Management Console内部更新 Amazon SageMaker Studio。有关更新 Studio 的详细信息,请参阅 Amazon SageMaker Studio UI 概述。