Lake Formation 中的蓝图和工作流 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Lake Formation 中的蓝图和工作流

工作流程将封装复杂的多任务提取、转换和加载 (ETL) 活动。生成工作流Amazon Glue爬虫、作业和触发器来协调数据的加载和更新。Lake Formation 作为单个实体执行和跟踪工作流程。您可以将工作流配置为按需或计划运行。

您在 Lake Formation 中创建的工作流程可在Amazon Glue控制台作为有向无环图 (DAG)。每个 DAG 节点都是作业、爬虫或触发器。要监控进度并进行故障排除,您可以跟踪工作流程中每个节点的状态。

当 Lake Formation 工作流程完成后,运行该工作流的用户将获得 Lake FormationSELECT对工作流创建的数据目录表的权限。

您也可以在中创建工作流Amazon Glue. 但是,由于 Lake Formation 使您能够从蓝图创建工作流程,因此在 Lake Formation 中创建工作流程更加简单,更自动化。Lake Formation 提供了以下类型的蓝图:

  • 数据库快照— 从 JDBC 源将所有表中的数据加载或重新加载到数据湖中。您可以根据排除模式从源中排除一些数据。

  • 增量数据库— 基于之前设置的书签,仅将新数据从 JDBC 源加载到数据湖中。您可以在 JDBC 源数据库中指定要包括的各个表。对于每个表,您可以选择书签列和书签排序顺序以跟踪之前加载的数据。首次针对一组表运行增量数据库蓝图时,工作流会从表中加载所有数据,并为下一次增量数据库蓝图运行设置书签。因此,如果将数据源中的每个表指定为参数,则可以使用增量数据库蓝图而不是数据库快照蓝图来加载所有数据。

  • 日志文件— 从日志文件源批量加载数据,包括Amazon CloudTrail、Elastic Load Balancing 日志和 Application Load Balancer 日志。

使用下表可帮助决定是使用数据库快照还是增量数据库蓝图。

在... 时使用数据库快照 当... 时使用增量数据库
  • 模式演变是灵活多变的。(列被重命名,删除之前的列,并将新列添加到它们的位置。)

  • 源和目标之间需要完全一致。

  • 模式演进是渐进的。(只有连续添加列。)

  • 只添加新行;之前的行不会更新。