本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Lake Formation 基于标签的访问控制管理数据湖
成千上万的客户正在构建 PB 级的数据湖。 Amazon这些客户中有许多人习 Amazon Lake Formation 惯于在整个组织中轻松构建和共享他们的数据湖。随着表和用户数量的增加,数据管家和管理员正在寻找方法来轻松地大规模管理对数据湖的权限。Lake Formation 基于标签的访问控制 (LF-TBAC) 允许数据管家创建 LF 标签(基于其数据分类和本体)并在之后将其附加到资源,因而解决了这个问题。
LF-TBAC 是一种基于属性定义权限的授权策略。在 Lake Formation 中,这些属性被称为“LF 标签”。您可以将 LF 标签附加到数据目录资源和 Lake Formation 主体。数据湖管理员可以使用 LF 标签分配和撤销对 Lake Formation 资源的权限。有关更多信息,请参阅Lake Formation 基于标签的访问控制。
本教程演示如何使用 Amazon 公共数据集创建基于 Lake Formation 标签的访问控制策略。此外,它还展示了如何查询具有相关的 Lake Formation 基于标签的访问策略的表、数据库和列。
您可以将 LF-TBAC 用于以下使用案例:
您有大量表和主体,数据湖管理员必须授予对它们的访问权限
您想基于本体对数据进行分类并基于分类授予权限
数据湖管理员想要以松耦合的方式动态分配权限
以下是使用 LF-TBAC 配置权限的主要步骤:
-
数据管家使用以下两个 LF 标签定义标签本体:
Confidential
和Sensitive
。带有Confidential=True
的数据具有更严格的访问控制。带有Sensitive=True
的数据需要分析师进行具体分析。 -
数据管家为数据工程师分配不同级别的权限,以便他们使用不同 LF 标签构建表。
-
数据工程师构建了两个数据库:
tag_database
和col_tag_database
。tag_database
中的所有表都配有Confidential=True
。col_tag_database
中的所有表都配有Confidential=False
。col_tag_database
中表的一些列带有Sensitive=True
标签,以满足特定的分析需求。 数据工程师使用特定表达式条件
Confidential=True
以及Confidential=False
、Sensitive=True
向分析人员授予对表的读取权限。-
通过这种配置,数据分析师可以专注于使用正确的数据执行分析。