

# 将数据湖框架与 Amazon Glue Studio 配合使用
<a name="gs-data-lake-formats"></a>

## 概述
<a name="gs-data-lake-formats-overview"></a>

 开源数据湖框架简化了对存储在 Amazon S3 上的数据湖中的文件的增量数据处理。Amazon Glue 3.0 及更高版本支持以下开源数据湖存储框架：
+  Apache Hudi 
+  Linux Foundation Delta Lake 
+  Apache Iceberg 

 截至 Amazon Glue 4.0，Amazon Glue 为这些框架提供原生支持，因此您可以以交易一致的方式读取和写入存储在 Amazon S3 中的数据。无需安装单独的连接器或完成额外的配置步骤即可在 Amazon Glue 作业中使用这些框架。

 通过 Spark 脚本编辑器任务，数据湖框架可用作 Amazon Glue Studio 中的来源或目标。有关使用 Apache Hudi、Apache Iceberg 和 Delta Lake 的更多信息，请参阅：[在 Amazon Glue ETL 任务中使用数据湖框架](https://docs.amazonaws.cn/glue/latest/dg/aws-glue-programming-etl-datalake-native-frameworks.html)。

## 从 Amazon Glue 流式处理源创建开放表格式
<a name="gs-data-lake-formats-streaming"></a>

Amazon Glue 流式处理 ETL 作业会持续消耗来自流式处理源的数据，清理和转换动态数据，并在几秒钟内使其可用于分析。

Amazon 提供的多种服务都可以满足您的需求。Amazon Database Migration Service 等数据库复制服务可以将数据从您的源系统复制到 Amazon S3，后者常用于托管数据湖的存储层。尽管在支持在线源应用程序的关系数据库管理系统（RDBMS）上应用更新非常简单直接，但很难在数据湖上执行这种 CDC 流程。开源数据管理框架可简化增量数据处理和数据管道的开发，能够很好地解决这一问题。

有关更多信息，请参阅：
+ [使用 Amazon Glue 流式处理功能创建基于 Apache HUDI 的近实时事务处理数据湖](https://www.amazonaws.cn/blogs/big-data/create-an-apache-hudi-based-near-real-time-transactional-data-lake-using-aws-dms-amazon-kinesis-aws-glue-streaming-etl-and-data-visualization-using-amazon-quicksight/)
+ [构建与 GDPR 一致的实时 Apache Iceberg 数据湖](https://www.amazonaws.cn/blogs/big-data/build-a-real-time-gdpr-aligned-apache-iceberg-data-lake/)