本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
将亚马逊EMR与 Amazon Lake Formation
Amazon Lake Formation 是一项托管服务,可帮助您发现、分类、清理和保护亚马逊简单存储服务 (S3) Simple Service 数据湖中的数据。Lake Formation 提供对 Glue 数据目录中的数据库和表的精细列级访问。 Amazon 有关更多信息,请参阅什么是 Amazon Lake Formation?
在亚马逊EMR版本 6.7.0 及更高版本中,您可以将基于 Lake Formation 的访问控制应用于提交到亚马逊集群的 Spark、Hive 和 Presto 任务。EMR要与 Lake Formation EMR 集成,您必须创建一个具有运行时角色的集群。运行时角色是您与 Amazon EMR 任务或查询关联的 Amazon Identity and Access Management (IAM) 角色。EMR然后,Amazon 使用此角色访问 Amazon 资源。有关更多信息,请参阅 Amazon EMR 步骤的运行时角色。
亚马逊如何与 Lake F EMR ormation 合作
将亚马逊EMR与 Lake Formation 集成后,您可以使用Step
API或使用 A SageMaker I Studio 对亚马逊EMR集群执行查询。然后,Lake Formation 通过亚马逊的临时证书提供对数据的访问权限EMR。此过程称为凭证售卖。有关更多信息,请参阅什么是 Amazon Lake Formation?
以下简要概述了亚马逊EMR如何访问受 Lake Formation 安全策略保护的数据。
-
用户提交亚马逊EMR查询 Lake Formation 中的数据。
-
亚马逊向 Lake Formation EMR 申请临时证书,以允许用户访问数据。
-
Lake Formation 返回临时凭证。
-
亚马逊EMR发送查询请求,要求从 Amazon S3 检索数据。
-
亚马逊从 Amazon S3 EMR 接收数据,对其进行筛选,然后根据用户在 Lake Formation 中定义的用户权限返回结果。
有关将用户和组添加到 Lake Formation 策略中的更多信息,请参阅授予数据目录权限。
先决条件
在整合亚马逊EMR和 Lake Formation 之前,您必须满足以下要求:
-
在您的 Amazon EMR 集群上开启运行时角色授权。
-
使用 Amazon Glue 数据目录作为元数据存储。
-
在 Lake For Amazon mation 中定义和管理访问 Glue 数据目录中数据库、表和列的权限。有关更多信息,请参阅什么是 Amazon Lake Formation?