Amazon EMR 与 Lake Formation 的集成概述 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

Amazon EMR 与 Lake Formation 的集成概述

当您将 Amazon EMR 与 Amazon Lake Formation 集成时,您可以使用 EMR Notebooks 和 Apache Zeppelin 的企业凭证启用基于 SAML 的身份验证,并且可以根据您在 Amazon Lake Formation 中定义的策略对数据湖实施精细的列级别访问控制。

Requirements

集成 Amazon EMR 和 Lake Formation 之前,您的组织必须满足以下要求:

  • 使用现有基于 SAML 的身份提供商管理您的公司身份,例如 Active Directory 联合身份验证服务(AD FS)。有关更多信息,请参阅为 SAML 配置第三方提供程序

  • 使用 Amazon Glue 数据目录作为元数据存储。

  • 在 Lake Formation 中定义和管理权限以访问 Amazon Glue 数据目录中的数据库、表和列。有关更多信息,请参阅Amazon Lake Formation

  • 使用 EMR Notebooks 或 Apache Zeppelin 访问由 Amazon Glue 和 Lake Formation 管理的数据。

集成类型

要将 Amazon EMR 与 Lake Formation 集成,您需要执行以下步骤:

  1. 完成先决任务,包括配置您的身份提供商、为 Lake Formation 创建 IAM 角色、设置安全配置以及准备 Lake Formation 资源。有关 Amazon EMR 和 Lake Formation 集成的先决条件的更多信息,请参阅开始前的准备工作

  2. 使用您为 Lake Formation 创建的新角色和安全配置启动集群。有关更多信息,请参阅使用 Lake Formation 启动 Amazon EMR 集群

  3. 使用您的 IdP 更新回调或单点登录 URL,以在 SAML 身份验证成功后将用户重定向到集群的主节点 (master node)。有关更多信息,请参阅更新身份提供商的回调或单点登录 URL

数据访问在 Lake Formation 中的工作原理

您将 Amazon EMR 与 Lake Formation 集成后,用户通过您组织的身份提供商(IdP)登录页面进行身份验证以访问 EMR Notebooks 或 Zeppelin。然后,Lake Formation 通过 EMR 的临时凭证提供对数据的访问。此过程称为凭证售卖。有关更多信息,请参阅Amazon Lake Formation

以下是 EMR 如何访问受 Lake Formation 安全策略保护的数据的高级概述:

  1. 用户在 Amazon EMR 中提交对来自 Lake Formation 的数据的查询。

  2. Amazon EMR 从 Amazon Lake Formation 请求临时凭证以供该用户访问。

  3. Lake Formation 返回临时凭证,从而允许数据访问。

  4. Amazon EMR 发送查询请求以从 Amazon S3 检索数据。

  5. Amazon EMR 接收来自 Amazon S3 的数据,然后根据您在 Lake Formation 中定义的用户权限筛选并返回结果。

有关用户身份验证和数据访问如何工作的详细信息,请参阅Amazon EMR 组件启用 SAML 的单点登录和精细访问控制的架构

有关将用户和组添加到 Lake Formation 策略中的更多信息,请参阅授予数据目录权限