本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Lake Formation 中的蓝图和工作流
工作流程将封装复杂的多任务提取、转换和加载 (ETL) 活动。生成工作流Amazon Glue爬虫、作业和触发器来协调数据的加载和更新。Lake Formation 作为单个实体执行和跟踪工作流程。您可以将工作流配置为按需或计划运行。
您在 Lake Formation 中创建的工作流程可在Amazon Glue控制台作为有向无环图 (DAG)。每个 DAG 节点都是作业、爬虫或触发器。要监控进度并进行故障排除,您可以跟踪工作流程中每个节点的状态。
当 Lake Formation 工作流程完成后,运行该工作流的用户将获得 Lake FormationSELECT
对工作流创建的数据目录表的权限。
您也可以在中创建工作流Amazon Glue. 但是,由于 Lake Formation 使您能够从蓝图创建工作流程,因此在 Lake Formation 中创建工作流程更加简单,更自动化。Lake Formation 提供了以下类型的蓝图:
-
数据库快照— 从 JDBC 源将所有表中的数据加载或重新加载到数据湖中。您可以根据排除模式从源中排除一些数据。
-
增量数据库— 基于之前设置的书签,仅将新数据从 JDBC 源加载到数据湖中。您可以在 JDBC 源数据库中指定要包括的各个表。对于每个表,您可以选择书签列和书签排序顺序以跟踪之前加载的数据。首次针对一组表运行增量数据库蓝图时,工作流会从表中加载所有数据,并为下一次增量数据库蓝图运行设置书签。因此,如果将数据源中的每个表指定为参数,则可以使用增量数据库蓝图而不是数据库快照蓝图来加载所有数据。
-
日志文件— 从日志文件源批量加载数据,包括Amazon CloudTrail、Elastic Load Balancing 日志和 Application Load Balancer 日志。
使用下表可帮助决定是使用数据库快照还是增量数据库蓝图。
在... 时使用数据库快照 | 当... 时使用增量数据库 |
---|---|
|
|