Amazon Glue DataBrew 中的核心概念和术语
下面,您可以找到 Amazon Glue DataBrew 中的核心概念和术语概述。在阅读本节后,请参阅 Amazon Glue DataBrew 入门,其中会引导您完成创建项目、连接数据集和运行作业的过程。
项目
DataBrew 中的交互式数据准备工作区称为项目。使用数据项目,可以管理一系列相关条目:数据、转换和计划流程。在创建项目时,您可以选择或创建要处理的数据集。接下来,创建一个配方,这是一组您希望 DataBrew 执行的指令或步骤。这些操作会将原始数据转换为可供数据管道使用的一种形式。
数据集
数据集简单来说便是一组数据,即划分为列或字段的行或记录。创建 DataBrew 项目时,您可以连接或上传要转换或准备的数据。DataBrew 可以处理从格式化文件导入的任何来源的数据,并且它可以直接连接到不断增长的数据存储列表。
对于 DataBrew,数据集是指与您的数据的只读连接。DataBrew 收集一组描述性元数据来引用这些数据。DataBrew 无法修改或存储任何实际数据。为简单起见,我们使用数据集来指代 DataBrew 使用的实际数据集和元数据。
Recipe
在 DataBrew 中,配方是您希望 DataBrew 处理的一组指令或步骤。一个配方可以包含许多步骤,每个步骤可以包含许多操作。您可以使用工具栏上的转换工具设置要对数据进行的所有更改。稍后,当您准备好查看配方的成品时,可以将此作业分配给 DataBrew 并做出相应计划。DataBrew 存储有关数据转换的指令,但它不存储您的任何实际数据。您可以在其他项目中下载和重复使用配方。您也可以发布配方的多个版本。
作业
DataBrew 通过运行您在创建配方时设置的指令来承担转换数据的作业。运行这些指令的过程称为作业。作业可以根据预设的计划将您的数据配方付诸实践。但是,您并不局限于某个计划。您还可以按需运行作业。如果您希望剖析一些数据,不需要配方。在这种情况下,您只需设置剖析作业以创建数据配置文件即可。
数据血统
DataBrew 在可视化界面中跟踪您的数据以确定其来源,这称为数据血统。此视图向您展示数据如何从其最初来源通过不同实体流动。您可以看到数据的来源、影响数据的其他实体、数据随着时间的推移发生了什么以及数据存储在哪里。
数据配置文件
当您剖析数据时,DataBrew 会创建一个名为数据配置文件的报告。这份摘要告诉您数据的现有状态,包括内容上下文、数据结构及其关系。您可以通过运行数据剖析作业,为任何数据集创建数据配置文件。