将数据湖框架与 Amazon Glue Studio 配合使用

概览

开源数据湖框架简化了对存储在 Amazon S3 上的数据湖中的文件的增量数据处理。Amazon Glue 3.0 及更高版本支持以下开源数据湖存储框架：

Apache Hudi
Linux Foundation Delta Lake
Apache Iceberg

截至 Amazon Glue 4.0，Amazon Glue 为这些框架提供原生支持，因此您可以以交易一致的方式读取和写入存储在 Amazon S3 中的数据。无需安装单独的连接器或完成额外的配置步骤即可在 Amazon Glue 作业中使用这些框架。

通过 Spark 脚本编辑器任务，数据湖框架可用作 Amazon Glue Studio 中的来源或目标。有关使用 Apache Hudi、Apache Iceberg 和 Delta Lake 的更多信息，请参阅：在 Amazon Glue ETL 任务中使用数据湖框架。

从 Amazon Glue 流式处理源创建开放表格式

Amazon Glue 流式处理 ETL 作业会持续消耗来自流式处理源的数据，清理和转换动态数据，并在几秒钟内使其可用于分析。

Amazon 提供的多种服务都可以满足您的需求。Amazon Database Migration Service 等数据库复制服务可以将数据从您的源系统复制到 Amazon S3，后者常用于托管数据湖的存储层。尽管在支持在线源应用程序的关系数据库管理系统（RDBMS）上应用更新非常简单直接，但很难在数据湖上执行这种 CDC 流程。开源数据管理框架可简化增量数据处理和数据管道的开发，能够很好地解决这一问题。

有关更多信息，请参阅：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

自定义可视化脚本的示例

在 Amazon Glue Studio 中使用 Hudi 框架