Amazon Glue DataBrew 中的核心概念和术语 - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon Glue DataBrew 中的核心概念和术语

下面,您可以找到 Amazon Glue DataBrew 中的核心概念和术语概述。在阅读本节后,请参阅 Amazon Glue DataBrew 入门,其中会引导您完成创建项目、连接数据集和运行作业的过程。

项目

DataBrew 中的交互式数据准备工作区称为项目。使用数据项目,可以管理一系列相关条目:数据、转换和计划流程。在创建项目时,您可以选择或创建要处理的数据集。接下来,创建一个配方,这是一组您希望 DataBrew 执行的指令或步骤。这些操作会将原始数据转换为可供数据管道使用的一种形式。

数据集

数据集简单来说便是一组数据,即划分为列或字段的行或记录。创建 DataBrew 项目时,您可以连接或上传要转换或准备的数据。DataBrew 可以处理从格式化文件导入的任何来源的数据,并且它可以直接连接到不断增长的数据存储列表。

对于 DataBrew,数据集是指与您的数据的只读连接。DataBrew 收集一组描述性元数据来引用这些数据。DataBrew 无法修改或存储任何实际数据。为简单起见,我们使用数据集来指代 DataBrew 使用的实际数据集和元数据。

Recipe

在 DataBrew 中,配方是您希望 DataBrew 处理的一组指令或步骤。一个配方可以包含许多步骤,每个步骤可以包含许多操作。您可以使用工具栏上的转换工具设置要对数据进行的所有更改。稍后,当您准备好查看配方的成品时,可以将此作业分配给 DataBrew 并做出相应计划。DataBrew 存储有关数据转换的指令,但它不存储您的任何实际数据。您可以在其他项目中下载和重复使用配方。您也可以发布配方的多个版本。

作业

DataBrew 通过运行您在创建配方时设置的指令来承担转换数据的作业。运行这些指令的过程称为作业。作业可以根据预设的计划将您的数据配方付诸实践。但是,您并不局限于某个计划。您还可以按需运行作业。如果您希望剖析一些数据,不需要配方。在这种情况下,您只需设置剖析作业以创建数据配置文件即可。

数据血统

DataBrew 在可视化界面中跟踪您的数据以确定其来源,这称为数据血统。此视图向您展示数据如何从其最初来源通过不同实体流动。您可以看到数据的来源、影响数据的其他实体、数据随着时间的推移发生了什么以及数据存储在哪里。

数据配置文件

当您剖析数据时,DataBrew 会创建一个名为数据配置文件的报告。这份摘要告诉您数据的现有状态,包括内容上下文、数据结构及其关系。您可以通过运行数据剖析作业,为任何数据集创建数据配置文件。