在 Amazon Glue ETL 任务中使用数据湖框架 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Glue ETL 任务中使用数据湖框架

开源数据湖框架简化了对存储在 Amazon S3 上的数据湖中的文件的增量数据处理。Amazon Glue 3.0 及更高版本支持以下开源数据湖框架:

  • Apache Hudi

  • Linux Foundation Delta Lake

  • Apache Iceberg

我们为这些框架提供原生支持,以便您可以以交易一致的方式读取和写入存储在 Amazon S3 中的数据。无需安装单独的连接器或完成额外的配置步骤即可在 Amazon Glue ETL 任务中使用这些框架。

通过管理数据集时Amazon Glue Data Catalog,您可以使用Amazon Glue方法读取和写入 Spark 数据湖表 DataFrames。也可以使用 Spark DataFrame API 读取和写入 Amazon S3 数据。