将 Amazon EMR 与 Amazon Lake Formation 集成 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

将 Amazon EMR 与 Amazon Lake Formation 集成

Amazon Lake Formation 是一项托管服务,可帮助您发现、分类、清理和保护 Amazon Simple Storage Service(S3)数据湖中的数据。Lake Formation 提供对 Amazon 数据目录中数据库和表的精细列级别访问。有关更多信息,请参阅什么是 Amazon Lake Formation?

使用 Amazon EMR 发行版本 6.7.0 及更高版本,您可以将基于 Lake Formation 的访问控制应用于您提交到 Amazon EMR 集群的 Spark、Hive 和 Presto 作业。要与 Lake Formation 集成,您必须创建具有运行时角色的 EMR 集群。运行时角色是您与 Amazon EMR 作业或查询关联的 Amazon Identity and Access Management (IAM) 角色。然后,Amazon EMR 使用此角色访问 Amazon 资源。有关更多信息,请参阅Amazon EMR 步骤的运行时角色

Amazon EMR 如何与 Lake Formation 结合使用

将 Amazon EMR 与 Lake Formation 集成后,您可以使用 Step API 或 SageMaker Studio 对 Amazon EMR 集群执行查询。然后,Lake Formation 通过 Amazon EMR 的临时凭证提供对数据的访问。此过程称为凭证售卖。有关更多信息,请参阅什么是 Amazon Lake Formation?

以下是 Amazon EMR 如何访问受 Lake Formation 安全策略保护的数据的高级概览。


				Amazon EMR 如何访问受 Lake Formation 安全策略保护的数据
  1. 用户对 Lake Formation 中的数据提交 Amazon EMR 查询。

  2. Amazon EMR 从 Lake Formation 请求临时凭证以授予用户数据访问权限。

  3. Lake Formation 返回临时凭证。

  4. Amazon EMR 发送查询请求以从 Amazon S3 检索数据。

  5. Amazon EMR 接收来自 Amazon S3 的数据,进行筛选,然后根据用户在 Lake Formation 中定义的用户权限返回结果。

有关将用户和组添加到 Lake Formation 策略中的更多信息,请参阅授予数据目录权限

先决条件

集成 Amazon EMR 和 Lake Formation 之前,您必须满足以下要求:

  • 在 Amazon EMR 集群上开启运行时角色授权。

  • 使用 Amazon Glue Data Catalog 作为元数据存储。

  • 在 Lake Formation 中定义和管理权限以访问 Amazon Glue 数据目录中的数据库、表和列。有关更多信息,请参阅什么是 Amazon Lake Formation?