将数据湖框架与 Amazon Glue Studio 配合使用 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将数据湖框架与 Amazon Glue Studio 配合使用

概述

开源数据湖框架简化了对存储在 Amazon S3 上的数据湖中的文件的增量数据处理。Amazon Glue 3.0 及更高版本支持以下开源数据湖存储框架:

  • Apache Hudi

  • Linux Foundation Delta Lake

  • Apache Iceberg

截至 Amazon Glue 4.0,Amazon Glue 为这些框架提供原生支持,因此您可以以交易一致的方式读取和写入存储在 Amazon S3 中的数据。无需安装单独的连接器或完成额外的配置步骤即可在 Amazon Glue 作业中使用这些框架。

通过 Spark 脚本编辑器任务,数据湖框架可用作 Amazon Glue Studio 中的来源或目标。有关使用 Apache Hudi、Apache Iceberg 和 Delta Lake 的更多信息,请参阅:在 Amazon Glue ETL 任务中使用数据湖框架

从 Amazon Glue 流式处理源创建开放表格式

Amazon Glue 流式处理 ETL 作业会持续消耗来自流式处理源的数据,清理和转换动态数据,并在几秒钟内使其可用于分析。

Amazon 提供的多种服务都可以满足您的需求。Amazon Database Migration Service 等数据库复制服务可以将数据从您的源系统复制到 Amazon S3,后者常用于托管数据湖的存储层。尽管在支持在线源应用程序的关系数据库管理系统(RDBMS)上应用更新非常简单直接,但很难在数据湖上执行这种 CDC 流程。开源数据管理框架可简化增量数据处理和数据管道的开发,能够很好地解决这一问题。

有关更多信息,请参阅: