

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 什么是 Amazon Glue DataBrew？
<a name="what-is"></a>

Amazon Glue DataBrew 是一款可视化数据准备工具，让用户无需编写任何代码即可清理数据并实现标准化。与自定义开发的数据准备相比，使用 DataBrew 可以让准备数据用于分析和机器学习（ML）所需的时间缩短多达 80%。您可以从 250 多种现成的转换功能中进行选择，以自动执行数据准备任务，例如筛选异常、将数据转换为标准格式以及更正无效值。

使用 DataBrew，业务分析师、数据科学家和数据工程师可以更轻松地协作从原始数据中获取见解。由于 DataBrew 无服务器，因此无论您的技术水平如何，都可以浏览和转换数 TB 的原始数据，而无需创建集群或管理任何基础设施。

借助直观的 DataBrew 界面，您能够以交互方式发现、可视化、清理和转换原始数据。DataBrew 可提供智能建议，以帮助您识别难以发现且修复起来耗时的数据质量问题。借助 DataBrew 准备数据，您可以利用自己的时间根据结果采取行动，并更快地进行迭代。您可以将转换保存为配方中的步骤，稍后可以对其进行更新或在其他数据集中重复使用，并持续部署。

下图大致展示了 DataBrew 的工作方式。

![\[关于 DataBrew 工作方式的简单示意图。DataBrew 无需编写代码即可直观地清理、准备和转换数据。一个方框显示了将数据从 Amazon S3 输入 DataBrew。它显示了 DataBrew 可以执行的一些转换对应的方框。转换框包括以下内容：格式化、清理和标准化数据。重构和转换数据。处理缺失和无效的数据。处理分类变量。处理数值变量。使用自然语言处理。该图显示了将数据作为准备好的数据集导出到 S3。\]](http://docs.amazonaws.cn/databrew/latest/dg/images/databrew-overview-diagram.png)


要使用 DataBrew，请创建一个项目并连接到您的数据。在项目工作区中，您可以看到您的数据显示在类似网格的可视界面中。在这里，您可以浏览数据并查看值分布情况和图表，以便了解其概况。

要准备数据，您可以从 250 多种点击式转换中进行选择，其中包括移除空值、替换缺失值、修复架构不一致、基于函数创建列等。您还可以使用转换来应用自然语言处理（NLP）技术，将句子拆分为短语。即时预览可以显示转换前后的部分数据，因此您可以在将配方应用于整个数据集之前对其进行修改。

在 DataBrew 对数据集运行配方后，输出将存储在 Amazon Simple Storage Service（Amazon S3）中。将经过清理的准备好的数据集存入 Amazon S3 后，您的其他数据存储或数据管理系统便可以摄取它。

# Amazon Glue DataBrew 中的核心概念和术语
<a name="core-concepts-and-terms"></a>

下面，您可以找到 Amazon Glue DataBrew 中的核心概念和术语概述。在阅读本节后，请参阅 [Amazon Glue DataBrew 入门](getting-started.md)，其中会引导您完成创建项目、连接数据集和运行作业的过程。

**Topics**
+ [

## 项目
](#projects-concept)
+ [

## 数据集
](#datasets-concept)
+ [

## Recipe
](#recipes-concept)
+ [

## 作业
](#jobs-concept)
+ [

## 数据血统
](#data-lineage-concept)
+ [

## 数据配置文件
](#data-profile-concept)

## 项目
<a name="projects-concept"></a>

DataBrew 中的交互式数据准备工作区称为*项目*。使用数据项目，可以管理一系列相关条目：数据、转换和计划流程。在创建项目时，您可以选择或创建要处理的数据集。接下来，创建一个*配方*，这是一组您希望 DataBrew 执行的指令或步骤。这些操作会将原始数据转换为可供数据管道使用的一种形式。

## 数据集
<a name="datasets-concept"></a>

数据集简单来说便是一组数据，即划分为列或字段的行或记录。创建 DataBrew 项目时，您可以连接或上传要转换或准备的数据。DataBrew 可以处理从格式化文件导入的任何来源的数据，并且它可以直接连接到不断增长的数据存储列表。

对于 DataBrew，*数据集*是指与您的数据的只读连接。DataBrew 收集一组描述性元数据来引用这些数据。DataBrew 无法修改或存储任何实际数据。为简单起见，我们使用数据集来指代 DataBrew 使用的实际数据集和元数据。

## Recipe
<a name="recipes-concept"></a>

在 DataBrew 中，*配方*是您希望 DataBrew 处理的一组指令或步骤。一个配方可以包含许多步骤，每个步骤可以包含许多操作。您可以使用工具栏上的转换工具设置要对数据进行的所有更改。稍后，当您准备好查看配方的成品时，可以将此作业分配给 DataBrew 并做出相应计划。DataBrew 存储有关数据转换的指令，但它不存储您的任何实际数据。您可以在其他项目中下载和重复使用配方。您也可以发布配方的多个版本。

## 作业
<a name="jobs-concept"></a>

DataBrew 通过运行您在创建配方时设置的指令来承担转换数据的作业。运行这些指令的过程称为*作业*。作业可以根据预设的计划将您的数据配方付诸实践。但是，您并不局限于某个计划。您还可以按需运行作业。如果您希望剖析一些数据，不需要配方。在这种情况下，您只需设置剖析作业以创建数据配置文件即可。

## 数据血统
<a name="data-lineage-concept"></a>

DataBrew 在可视化界面中跟踪您的数据以确定其来源，这称为*数据血统*。此视图向您展示数据如何从其最初来源通过不同实体流动。您可以看到数据的来源、影响数据的其他实体、数据随着时间的推移发生了什么以及数据存储在哪里。

## 数据配置文件
<a name="data-profile-concept"></a>

当您剖析数据时，DataBrew 会创建一个名为*数据配置文件*的报告。这份摘要告诉您数据的现有状态，包括内容上下文、数据结构及其关系。您可以通过运行数据剖析作业，为任何数据集创建数据配置文件。

# 产品和服务集成
<a name="databrew-integrations"></a>

阅读本节，了解哪些产品和服务可与 DataBrew 集成。

DataBrew 可使用以下 Amazon 服务进行联网、管理和治理：
+ [Amazon CloudFront](https://docs.amazonaws.cn/AmazonCloudFront/latest/DeveloperGuide/Introduction.html)
+ [Amazon CloudFormation](https://docs.amazonaws.cn/AWSCloudFormation/latest/UserGuide/Welcome.html)
+ [Amazon CloudTrail](https://docs.amazonaws.cn/awscloudtrail/latest/userguide/cloudtrail-user-guide.html)
+ [Amazon CloudWatch](https://docs.amazonaws.cn/AmazonCloudWatch/latest/monitoring/WhatIsCloudWatch.html)
+ [Amazon Step Functions](https://docs.amazonaws.cn/step-functions/latest/dg/connect-databrew.html)

DataBrew 可使用以下 Amazon 数据湖和数据存储：
+ [Amazon Lake Formation](https://docs.amazonaws.cn/lake-formation/latest/dg/what-is-lake-formation.html)
+ [Amazon S3](https://docs.amazonaws.cn/AmazonS3/latest/dev/Welcome.html)

DataBrew 支持使用以下文件格式和扩展名上传数据。


| **格式**。 | **文件扩展名（可选）** |  **压缩文件的扩展名（必需）**  | 
| --- | --- | --- | 
|  逗号分隔的值  |  `.csv`  |  `.gz`  `.snappy` `.lz4` `.bz2` `.deflate`  | 
| Microsoft Excel 工作簿 |  `.xlsx`  | 不支持压缩 | 
|  JSON（JSON 文档和 JSON Lines）  |  `.json, .jsonl`  |  `.gz` `.snappy` `.lz4` `.bz2` `.deflate`  | 
| Apache ORC |  `.orc`  |  `.zlib` `.snappy`  | 
| Apache Parquet |  `.parquet`  |  `.gz` `.snappy` `.lz4`  | 

DataBrew 将输出文件写入 Amazon S3，并支持以下文件格式和扩展名。


| **格式**。 |  **文件扩展名（未压缩）**  |  **文件扩展名（压缩）**  | 
| --- | --- | --- | 
|  逗号分隔的值  | .csv | .csv.snappy, .csv.gz, .csv.lz4, csv.bz2, .csv.deflate, csv.br | 
|  制表符分隔值  | .csv | .tsv.snappy, .tsv.gz, .tsv.lz4, tsv.bz2, .tsv.deflate, tsv.br | 
| Apache Parquet  | .parquet | .parquet.snappy, .parquet.gz, .parquet.lz4, .parquet.lzo, .parquet.br | 
| Amazon Glue Parquet | 不支持 | .glue.parquet.snappy | 
| Apache Avro | .avro | .avro.snappy, .avro.gz, .avro.lz4, .avro.bz2, .avro.deflate, .avro.br | 
| Apache ORC | .orc | .orc.snappy, .orc.lzo, .orc.zlib | 
| XML | .xml | .xml.snappy, .xml.gz, .xml.lz4, .xml.bz2, .xml.deflate, .xml.br | 
| JSON（仅限 JSON Lines 格式） |  .json  | .json.snappy, .json.gz, .json.lz4, json.bz2, .json.deflate, .json.br | 
| Tableau Hyper | 不支持 | 不适用 | 