使用 Amazon SageMaker Data Wrangler 准备机器学习数据 - Amazon SageMaker
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Amazon SageMaker Data Wrangler 准备机器学习数据

Amazon SageMaker Data Wrangler (Data Wrangler) 是 Amazon SageMaker Studio 的一项功能,可提供端到端解决方案,以导入、准备、转换、特征化和分析数据。您可以将 Data Wrangler 数据准备流集成到机器学习 (ML) 工作流中,以简化和精简数据预处理和特征工程,只需少量甚至无需编码。您还可以添加自己的 Python 脚本和转换,以自定义工作流。

Data Wrangler 可提供以下核心功能,帮助您分析和准备用于机器学习应用程序的数据。

  • 导入 – 连接到 Amazon Simple Storage Service (Amazon S3)、Amazon Athena (Athena)、Amazon Redshift、Snowflake 和 Databricks,并从中导入数据。

  • 数据流 – 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流合并来自不同数据源的数据集,确定要应用于数据集的转换数量和类型,并定义可集成到机器学习管线中的数据准备工作流。

  • 转换 – 使用标准转换(如字符串、矢量和数字数据格式化工具)清理和转换数据集。使用转换(如文本和日期/时间嵌入以及分类编码)特征化数据。

  • 生成数据见解 – 使用 Data Wrangler 数据见解和质量报告,自动验证数据质量并检测数据中的异常。

  • 分析 – 在流中的任意点分析数据集中的特征。Data Wrangler 包括内置的数据可视化工具,如散点图和直方图,以及目标泄漏分析和快速建模等数据分析工具,以了解特征相关性。

  • 导出 – 将数据准备工作流导出至其他位置。以下是一些示例位置:

    • Amazon Simple Storage Service (Amazon S3) 存储桶

    • Amazon SageMaker 建模管线 – 使用 SageMaker Pipelines 自动执行模型部署。您可以将转换后的数据直接导出至管线。

    • Amazon SageMaker Feature Store – 将特征及其数据存储在中央存放区。

    • Python 脚本 – 将数据及其转换存储在 Python 脚本中,用于您的自定义工作流。

要开始使用 Data Wrangler,请参阅开始使用 Data Wrangler

重要

Data Wrangler 不再支持 Jupyter Lab 版本 1 (JL1)。要访问最新功能和更新,请更新为 Jupyter Lab 版本 3。有关升级的更多信息,请参阅从控制台查看和更新应用程序的 JupyterLab 版本

重要

本指南中的信息和过程使用最新版本的 Amazon SageMaker Studio。有关将 Studio 更新为最新版本的信息,请参阅 Amazon SageMaker Studio UI 概述

必须使用 Studio 版本 1.3.0 或更高版本。可使用以下过程打开 Amazon SageMaker Studio,查看您所运行的版本。

要打开 Studio 并检查其版本,请参阅以下过程。

  1. 按照先决条件中的步骤,通过 Amazon SageMaker Studio 访问 Data Wrangler。

  2. 在您希望用于启动 Studio 的用户旁,选择启动应用程序

  3. 选择 Studio

  4. Studio 加载后,依次选择文件新建终端

  5. 启动 Studio 后,依次选择文件新建终端

  6. 输入cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@",打印 Studio 实例的版本。必须具有 Studio 版本 1.3.0,才能使用 Snowflake。

您可以从 Amazon Web Services Management Console内部更新 Amazon SageMaker Studio。有关更新 Studio 的详细信息,请参阅 Amazon SageMaker Studio UI 概述