蓝图和工作流程 Lake Formation - AWS Lake Formation
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

蓝图和工作流程 Lake Formation

工作流封装了复杂的多作业提取、转换和加载(ETL)活动。工作流生成 AWS Glue 爬网、作业和触发器,以协调数据的加载和更新。 Lake Formation 作为单个实体执行和跟踪工作流程。您可以将工作流程配置为按需或按计划运行。

您在中创建的工作流程 Lake Formation 可见于 AWS Glue 控制台作为定向非循环图形(DAG)。每个DAG节点都是作业、爬网器或触发器。要监控进度和故障排除,您可以跟踪工作流程中每个节点的状态。

当 Lake Formation 工作流已完成,运行工作流的用户将被授权 Lake Formation SELECT 权限 Data Catalog 工作流程创建的表。

您也可以在 AWS Glue. 然而,因为 Lake Formation 使您能够从蓝图创建工作流程,创建工作流程更加简单和自动化 Lake Formation。 Lake Formation 提供以下类型的蓝图:

  • 数据库快照 – 将来自所有表的数据加载或重新加载至JDBC来源的数据湖。您可以根据排除模式从源中排除一些数据。

  • 增量数据库 – 仅从JDBC源将新数据加载到数据湖,基于之前设置的书签。您可以指定JDBC源数据库中的各个表以包括。Foreachtable,youchoosethebookmarkcolumnsandbookmarksortordertokeeptrackofdatathathaspreviouslybeenloaded. Thefirsttimethatyourunanincrementaldatabaseblueprintagainstasetoftables,theworkflowloadsalldatafromthetablesandsetsbookmarksforthenextincrementaldatabaseblueprintrun. Youcanthereforeuseanincrementaldatabaseblueprintinsteadofthedatabasesnapshotblueprinttoloadalldata,providedthatyouspecifyeachtableinthedatasourceasaparameter.

  • 日志文件 – 从日志文件源批量加载数据,包括 AWS CloudTrail, Elastic Load Balancing 日志,以及 应用程序负载均衡器 记录。

使用下表帮助决定是否使用数据库快照或增量数据库蓝图。

在时使用数据库快照... 在时使用增量数据库...
  • 框架演进是灵活的。(列被重新命名,前几列被删除,新列被添加。)

  • 源和目标之间需要完全一致。

  • 框架演进是递增的。(仅连续添加列。)

  • 只添加新行;前几行不会更新。