Lake Formation 术语 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Lake Formation 术语

以下是您将在本指南中遇到的一些重要术语。

数据湖

“数据湖”是存储在 Amazon S3 中并由 Lake Formation 使用数据目录管理的持久性数据。数据湖通常存储以下内容:

  • 结构化数据和非结构化数据

  • 原始数据和转换后的数据

要使 Amazon S3 路径位于数据湖内,必须向 Lake Formation 注册该路径。

数据访问

Lake Formation 通过扩 Amazon Identity and Access Management 大 (IAM) 策略的新授予/撤销权限模型,提供对数据的安全和精细访问。

分析师和数据科学家可以使用完整的 Amazon 分析和机器学习服务组合(例如 Amazon Athena)来访问数据。配置的 Lake Formation 安全策略有助于确保用户只能访问自己有权访问的数据。

混合访问模式

混合访问模式允许您使用 Lake Formation 权限以及 IAM 和 Amazon S3 权限来保护和访问已编目的数据。混合访问模式允许数据管理员有选择地以增量方式加载 Lake Formation 权限,一次专注于一个数据湖用例。

蓝图

“蓝图”是一种数据管理模板,可让您轻松地将数据摄取到数据湖中。Lake Formation 提供了多个蓝图,每个蓝图都适用于预定义的源类型,例如关系数据库或 Amazon CloudTrail 日志。在蓝图中,您可以创建工作流。工作流由 Amazon Glue 爬虫、作业和触发器组成,生成这些抓取程序、作业和触发器以协调数据的加载和更新。蓝图将数据来源、数据目标和计划作为配置工作流的输入。

工作流

“工作流”是一组相关 Amazon Glue 作业、爬网程序和触发器的容器。您可以在 Lake Formation 中创建工作流,然后在 Amazon Glue 服务中执行。Lake Formation 可以将工作流作为单个实体跟踪其状态。

定义工作流时,您可以选择其所基于的蓝图。然后可以按需或按计划运行工作流。

您在 Lake Formation 中创建的工作流在 Amazon Glue 控制台中显示为有向无环图 (DAG) 形式。使用 DAG,您可以跟踪工作流的进度并执行问题排查。

数据目录

“数据目录”是持久性元数据存储。它是一项托管服务,允许您在 Amazon 云端存储、注释和共享元数据,就像在 Apache Hive 元数据仓中一样。它提供了一个统一的存储库,不同的系统可以在其中存储和查找元数据来跟踪数据孤岛中的数据,然后使用该元数据来查询和转换数据。Lake Formation 使用 Amazon Glue 数据目录来存储有关数据湖、数据来源、转换和目标的元数据。

有关数据来源和目标的元数据采用数据库和表的形式。表存储架构信息、位置信息等。数据库是表的集合。Lake Formation 提供权限层次结构来控制对数据目录中的数据库和表的访问权限。

每个 Amazon 账户在每个 Amazon 区域都有一个数据目录。

基础数据

“基础数据”是指数据目录表指向的数据湖中的源数据或数据。

主体

委托人是 Amazon Identity and Access Management (IAM) 用户或角色或 Active Directory 用户。

数据湖管理员

“数据湖管理员”是可以向任何主体(包括自己)授予对任何数据目录资源或数据位置的任何权限的主体。将数据湖管理员指定为数据目录的第一个用户。然后,此用户可以向其他主体授予更精细的资源权限。

注意

IAM 管理用户(使用AdministratorAccess Amazon 托管策略的用户)不会自动成为数据湖管理员。例如,他们无法授予 Lake Formation 对目录对象的权限,除非他们已获得相应权限。但是,他们可以使用 Lake Formation 控制台或 API 将自己指定为数据湖管理员。

有关数据湖管理员功能的信息,请参阅隐式 Lake Formation 权限。有关将用户指定为数据湖管理员的信息,请参阅创建数据湖管理员