Amazon Lake Formation 与 Amazon EMR 一起使用 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Lake Formation 与 Amazon EMR 一起使用

Amazon EMR 是一个灵活的 Amazon 托管集群平台,您可以在支持的大数据框架(例如 Hadoop Map-Reduce、Spark、Hive、Presto 等)上运行任何自定义代码。组织还可以使用 Amazon EMR 在高度分布式集群中运行批处理和流式数据处理应用程序。使用 Apache Spark on Amazon EMR,您可以在其权限由 Lake Formation 管理的数据库和表上运行数据转换和自定义代码。

Amazon EMR 部署选项有三个:

  • EMR 已开启 EC2

  • EMR Serverless

  • Amazon EMR on EKS

有关更多信息,请参阅将 Amazon EMR 与 Lake Formation 集成或将 EMR Serverles s 与 Lake Formation 集成,实现精细的访问控制 Amazon Lake Formation

支持事务表格格式

当您使用 Spark SQL 读取和写入数据时,Amazon EMR 发行版 6.15.0 及更高版本支持对 Apache HudiApache IcebergDelta Lake 表格式的 Lake Formation 表、行、列和单元格级别的访问控制权限。

有关限制,请参阅将 Amazon EMR 与 Lake Formation 结合使用时的注意事项

支持的表格格式
表格式 描述和允许的操作 Amazon EMR 中支持的 Lake Formation 权限

Apache Hudi

一种开放表格格式,用于简化增量数据处理和数据管线开发。

有关支持的操作列表,请参阅 Apache Hudi 和 Lake Formation

Amazon EMR 支持使用 Apache Hudi 进行表、行、列和单元格级别的访问控制。

Apache Iceberg

一种开放表格格式,可将大量文件作为表进行管理。

有关支持的操作列表,请参阅 Apache Iceberg 和 Lake Formation

Amazon EMR 支持使用 Apache Iceberg 进行表、行、列和单元格级别的访问控制。

Linux Foundation Delta Lake

Delta Lake 是一个开源项目,可帮助实施通常在 Amazon S3 或 Hadoop Distributed File System (HDFS) 上构建的现代数据湖架构。

有关支持的操作列表,请参阅 Delta Lake 和 Lake Formation

Amazon EMR 支持使用 Delta Lake 进行表、行、列和单元格级的访问控制。

其他资源