本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
中的核心概念和术语Amazon Glue DataBrew
接下来,您将在中找到核心概念和术语概述Amazon Glue DataBrew. 阅读本节之后,请参阅Amazon Glue DataBrew 入门,将指导您完成创建项目、连接数据集和运行作业的过程。
项目
中的交互式数据准备工作区 DataBrew 被称为项目. 使用数据项目,您可以管理相关项目的集合:数据、转换和计划流程。作为创建项目的一部分,您可以选择或创建要处理的数据集。接下来,创建食谱,这是你想要的一组说明或步骤 DataBrew 以便采取行动。这些操作将原始数据转换为可供数据管道使用的表单。
数据集
数据集只是指一组数据 — 分为列或字段的行或记录。在创建 DataBrew 项目,您可以连接或上传要转换或准备的数据。 DataBrew 可以处理从格式化文件导入的任何来源的数据,并直接连接到越来越多的数据存储列表。
对于 DataBreW,数据集是数据的只读连接。 DataBrew 收集一组描述性元数据以引用数据。DatabreW 不能更改或存储任何实际数据。为简单起见,我们使用数据集来引用实际数据集和元数据 DataBrew 使用。
Recipe
在 DatabreW 中,食谱是您想要的数据的一组说明或步骤 DataBrew 以便采取行动。配方可以包含许多步骤,每个步骤可以包含许多操作。您可以使用工具栏上的转换工具来设置要对数据进行的所有更改。稍后,当你准备好看食谱的成品时,你将此作业分配给 DataBrew 然后安排它。 DataBrew 存储有关数据转换的说明,但它不存储任何实际数据。您可以在其他项目中下载和重复使用食谱。您也可以发布配方的多个版本。
任务
DatabreW 通过运行您在制作食谱时设置的说明来承担数据转换的工作。运行这些指令的过程称为任务。作业可以根据预设的时间表将数据配方付诸行动。但是你并不局限于时间表。您也可以按需运行作业。如果您想分析某些数据,则不需要配方。在这种情况下,你可以设置个人资料作业来创建数据配置文件。
数据谱系
DatabReW 在可视化界面中跟踪您的数据以确定其来源,称为数据世系. 此视图向您展示了数据如何从原来的地方流过不同的实体。你可以看到它的起源、受其影响的其他实体、随着时间的推移发生了什么以及存储在哪里。
配置文件
当你对数据进行分析时, DataBrew 创建一个名为配置文件. 此摘要告诉你数据的现有形状,包括内容的上下文、数据的结构及其关系。您可以通过运行数据配置文件作业为任何数据集创建数据配置文件。