中的核心概念和术语Amazon Glue DataBrew - Amazon Glue DataBrew
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

中的核心概念和术语Amazon Glue DataBrew

接下来,您将在中找到核心概念和术语概述Amazon Glue DataBrew. 阅读本节之后,请参阅Amazon Glue DataBrew 入门,将指导您完成创建项目、连接数据集和运行作业的过程。

项目

中的交互式数据准备工作区 DataBrew 被称为项目. 使用数据项目,您可以管理相关项目的集合:数据、转换和计划流程。作为创建项目的一部分,您可以选择或创建要处理的数据集。接下来,创建食谱,这是你想要的一组说明或步骤 DataBrew 以便采取行动。这些操作将原始数据转换为可供数据管道使用的表单。

数据集

数据集只是指一组数据 — 分为列或字段的行或记录。在创建 DataBrew 项目,您可以连接或上传要转换或准备的数据。 DataBrew 可以处理从格式化文件导入的任何来源的数据,并直接连接到越来越多的数据存储列表。

对于 DataBreW,数据集是数据的只读连接。 DataBrew 收集一组描述性元数据以引用数据。DatabreW 不能更改或存储任何实际数据。为简单起见,我们使用数据集来引用实际数据集和元数据 DataBrew 使用。

Recipe

在 DatabreW 中,食谱是您想要的数据的一组说明或步骤 DataBrew 以便采取行动。配方可以包含许多步骤,每个步骤可以包含许多操作。您可以使用工具栏上的转换工具来设置要对数据进行的所有更改。稍后,当你准备好看食谱的成品时,你将此作业分配给 DataBrew 然后安排它。 DataBrew 存储有关数据转换的说明,但它不存储任何实际数据。您可以在其他项目中下载和重复使用食谱。您也可以发布配方的多个版本。

任务

DatabreW 通过运行您在制作食谱时设置的说明来承担数据转换的工作。运行这些指令的过程称为任务。作业可以根据预设的时间表将数据配方付诸行动。但是你并不局限于时间表。您也可以按需运行作业。如果您想分析某些数据,则不需要配方。在这种情况下,你可以设置个人资料作业来创建数据配置文件。

数据谱系

DatabReW 在可视化界面中跟踪您的数据以确定其来源,称为数据世系. 此视图向您展示了数据如何从原来的地方流过不同的实体。你可以看到它的起源、受其影响的其他实体、随着时间的推移发生了什么以及存储在哪里。

配置文件

当你对数据进行分析时, DataBrew 创建一个名为配置文件. 此摘要告诉你数据的现有形状,包括内容的上下文、数据的结构及其关系。您可以通过运行数据配置文件作业为任何数据集创建数据配置文件。