

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Amazon Data Wrangler 准备机器学习 SageMaker 数据
<a name="data-wrangler"></a>

**重要**  
亚马逊 SageMaker Data Wrangler 已集成到亚马 SageMaker 逊 Canvas 中。在 Can SageMaker vas 中的全新 Data Wrangler 体验中，除了可视化界面外，您还可以使用自然语言界面来探索和转换数据。有关 Canvas 中的 Data Wrangler 的更多信息， SageMaker 请参阅。[数据准备](canvas-data-prep.md)

Amazon SageMaker Data Wrangler（Data Wrangler）是 Amazon SageMaker Studio Classic 的一项功能，它提供了导入、准备、转换、特征化和分析数据的 end-to-end解决方案。您可以将 Data Wrangler 数据准备流集成到机器学习 (ML) 工作流中，以简化和精简数据预处理和特征工程，只需少量甚至无需编码。您还可以添加自己的 Python 脚本和转换，以自定义工作流。

Data Wrangler 可提供以下核心功能，帮助您分析和准备用于机器学习应用程序的数据。
+ **导入** — 连接亚马逊简单存储服务 (Amazon S3)、（Athena）、亚马逊 Redshift、Snow Amazon Athena flake 和 Databricks 并从中导入数据。
+ **数据流** – 创建数据流以定义一系列机器学习数据准备步骤。您可以使用流合并来自不同数据源的数据集，确定要应用于数据集的转换数量和类型，并定义可集成到机器学习管线中的数据准备工作流。
+ **转换** – 使用标准*转换*（如字符串、矢量和数字数据格式化工具）清理和转换数据集。使用文本和 date/time 嵌入等变换以及分类编码来展示您的数据。
+ **生成数据见解** – 使用 Data Wrangler 数据见解和质量报告，自动验证数据质量并检测数据中的异常。
+ **分析** – 在流中的任意点分析数据集中的特征。Data Wrangler 包括内置的数据可视化工具，如散点图和直方图，以及目标泄漏分析和快速建模等数据分析工具，以了解特征相关性。
+ **导出** – 将数据准备工作流导出至其他位置。以下是一些示例位置：
  + Amazon Simple Storage Service（Amazon S3）桶
  + Amazon P SageMaker ipelines — 使用管道自动部署模型。您可以将转换后的数据直接导出至管线。
  + Amazon F SageMaker eature Store — 将功能及其数据存储在中央存储中。
  + Python 脚本 – 将数据及其转换存储在 Python 脚本中，用于您的自定义工作流。

要开始使用 Data Wrangler，请参阅[开始使用 Data Wrangler](data-wrangler-getting-started.md)。

**重要**  
Data Wrangler 不再支持 Jupyter Lab 版本 1 ()。JL1要访问最新功能和更新，请更新为 Jupyter Lab 版本 3。有关升级的更多信息，请参阅[从控制台查看和更新应用程序的 JupyterLab 版本](studio-jl.md#studio-jl-view)。

**重要**  
本指南中的信息和程序使用最新版本的 Amazon SageMaker Studio Classic。有关将 Studio Classic 升级到最新版本的信息，请参阅 [亚马逊 SageMaker Studio 经典用户界面概述](studio-ui.md)。

您必须使用 Studio Classic 1.3.0 或更高版本。使用以下步骤打开 Amazon SageMaker Studio Classic 并查看您正在运行哪个版本。

要打开 Studio Classic 并检查其版本，请参阅以下步骤。

1. 按照中的[先决条件](data-wrangler-getting-started.md#data-wrangler-getting-started-prerequisite)步骤通过 Amazon SageMaker Studio Classic 访问 Data Wrangler。

1. 在要用来启动 Studio Classic 的用户旁边，选择**启动应用程序**。

1. 选择 **Studio**。

1. Studio Classic 载入后，选择**文件**，然后选择**新建**，再选择**终端**。  
![步骤 4 中描述的 Studio Classic 上下文菜单选项。](http://docs.amazonaws.cn/sagemaker/latest/dg/images/studio/mohave/terminal.png)

1. 启动 Studio Classic 后，选择**文件**，然后选择**新建**，再选择**终端**。

1. 输入 `cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"`，打印 Studio Classic 实例的版本。您必须安装 Studio Classic 1.3.0 版本才能使用 Snowflake。  
![在 Studio Classic 中打开终端窗口，复制并粘贴步骤 6 中的命令。](http://docs.amazonaws.cn/sagemaker/latest/dg/images/studio/mohave/cat-command.png)

您可以从内部更新 Amazon SageMaker Studio Classic Amazon Web Services 管理控制台。有关更新 Studio Classic 的更多信息，请参阅 [亚马逊 SageMaker Studio 经典用户界面概述](studio-ui.md)。

**Topics**
+ [开始使用 Data Wrangler](data-wrangler-getting-started.md)
+ [导入](data-wrangler-import.md)
+ [创建和使用 Data Wrangler 流](data-wrangler-data-flow.md)
+ [获取有关数据和数据质量的见解](data-wrangler-data-insights.md)
+ [根据您的数据流自动训练模型](data-wrangler-autopilot.md)
+ [转换数据](data-wrangler-transform.md)
+ [分析和可视化](data-wrangler-analyses.md)
+ [针对不同数据集重用数据流](data-wrangler-parameterize.md)
+ [导出](data-wrangler-data-export.md)
+ [使用 Amazon SageMaker Studio 经典笔记本中的交互式数据准备小工具获取数据见解](data-wrangler-interactively-prepare-data-notebook.md)
+ [安全性和权限](data-wrangler-security.md)
+ [发行说明](data-wrangler-release-notes.md)
+ [故障排除](data-wrangler-trouble-shooting.md)
+ [提高 Amazon EC2 实例限制](data-wrangler-increase-instance-limit.md)
+ [更新 Data Wrangler](data-wrangler-update.md)
+ [关闭 Data Wrangler](data-wrangler-shut-down.md)