Amazon Lake Formation 与 Amazon EMR 一起使用 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Lake Formation 与 Amazon EMR 一起使用

Amazon EMR 是一个灵活的 Amazon 托管集群平台,您可以在支持的大数据框架(例如 Hadoop Map-Reduce、Spark、Hive、Presto 等)上运行任何自定义代码。组织还可以使用 Amazon EMR 在高度分布式集群中运行批处理和流式数据处理应用程序。在亚马逊 EMR 上使用 Apache Spark,您可以在权限由 Lake Formation 管理的数据库和表上运行数据转换和自定义代码。

Amazon EMR 部署选项有三个:

  • EC2 上的 EMR

  • EMR Serverless

  • Amazon EMR on EKS

有关更多信息,请参阅将 Amazon EMR 与 Lake Formation 集成,或者将 EMR Serverles s 与 Lake Formation 集成,实现精细的访问控制 Amazon Lake Formation

支持事务表格格式

当您使用 Spark SQL 读取和写入数据时,Amazon EMR 发行版 6.15.0 及更高版本支持对 Apache HudiApache IcebergDelta Lake 表格式的 Lake Formation 表、行、列和单元格级别的访问控制权限。

有关限制,请参阅使用 La ke Formation 的亚马逊 EMR 注意事项

支持的表格格式
表格式 描述和允许的操作 Amazon EMR 中支持的 Lake Formation 权限

Apache Hudi

一种开放表格格式,用于简化增量数据处理和数据管线开发。

有关支持的操作列表,请参阅 Apache Hudi 和 Lake Formation

Amazon EMR 支持使用 Apache Hudi 进行表、行、列和单元格级别的访问控制。

Apache Iceberg

一种开放表格格式,可将大量文件作为表进行管理。

有关支持的操作列表,请参阅 Apache Iceberg 和 Lake Formation

Amazon EMR 支持使用 Apache Iceberg 进行表、行、列和单元格级别的访问控制。

Linux Foundation Delta Lake

Delta Lake 是一个开源项目,可帮助实施通常在 Amazon S3 或 Hadoop Distributed File System (HDFS) 上构建的现代数据湖架构。

有关支持的操作列表,请参阅 Delta Lake 和 Lake Formation

Amazon EMR 支持使用 Delta Lake 表进行表、行、列和单元级别的访问控制。

其他 资源