Amazon Lake Formation:工作方式 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Lake Formation:工作方式

Amazon Lake Formation使您能够更轻松地构建、保护和管理数据湖。Lake Formation 可以直接或通过其他方式帮助您完成以下操作Amazon服务:

  • 注册 Amazon Simple Storage Service (Amazon S3) 存储桶和数据湖将驻留的路径。

  • 协调收集、清理、转换和组织原始数据的数据流。

  • 创建和管理包含有关数据源和数据湖中数据的元数据的数据目录。

  • 通过授予/撤销权限模型定义对元数据和数据的精细数据访问策略。

下图说明了如何在 Lake Formation 中加载和保护数据。


            图表显示了通过 Lake Formation 的数据流,从 Amazon S3、关系数据库和 NoSQL 数据库等源到 Amazon S3 数据湖,再到分析服务的数据流。

如图所示,Lake Formation 管理Amazon Glue爬网程序,Amazon GlueETL 作业、数据目录、安全设置和访问控制。数据安全存储在数据湖中后,用户可以通过选择的分析服务(包括 Amazon Athena、Amazon Redshift 和 Amazon EMR)访问数据。

Lake Formation

以下是您将在本指南中遇到的一些重要术语。

数据湖

这些区域有:数据湖是存储在 Amazon S3 中并由 Lake Formation 使用数据目录管理的持久数据。数据湖通常存储以下内容:

  • 结构化和非结构化数据

  • 原始数据和转换后的数据

要使 Amazon S3 路径位于数据湖中,它必须是已注册与 Lake Formation

数据访问

Lake Formation 通过新的授予/撤销权限模型提供对数据的安全、精细访问,该模型可以增强Amazon Identity and Access Management(IAM) 策略。

分析师和数据科学家可以使用Amazon分析和机器学习服务,例如 Amazon Athena,以访问数据。配置的 Lake Formation 安全策略有助于确保用户只能访问已授权访问的数据。

Blueprint

一个蓝图是一个数据管理模板,使您能够轻松地将数据提取到数据湖中。Lake Formation 提供了几个蓝图,每个蓝图针对预定义的源类型,例如关系数据库或Amazon CloudTrail日志。从蓝图中,您可以创建工作流程。包含以下内容:Amazon Glue为协调数据的加载和更新而生成的爬虫、作业和触发器。蓝图将数据源、数据目标和计划作为输入来配置工作流程。

工作流程

一个工作流是一组相关的容器Amazon Glue作业、爬网程序和触发器。您在 Lake Formation 中创建工作流程,然后在Amazon Glue服务。Lake Formation 可以作为单个实体跟踪工作流的状态。

定义工作流时,您可以选择工作流所基于的蓝图。然后,您可以根据需要或计划运行工作流程。

您在 Lake Formation 中创建的工作流程可在Amazon Glue控制台作为有向无环图 (DAG)。利用 DAG,您可以跟踪工作流程的进度并执行故障排除。

数据目录

这些区域有:Data Catalog是您的持久性元数据存储。它是一项托管式服务,可让您在 Amazon 云中存储、注释和共享元数据,就像在 Apache Hive 元存储中一样。它提供了一个统一的存储库,不同的系统可以在其中存储和查找元数据来跟踪数据孤岛中的数据,然后使用该元数据来查询和转换数据。Lake Formation 使用Amazon Glue数据目录来存储有关数据湖、数据源、转换和目标的元数据。

有关数据源和目标的元数据采用数据库和表格的形式。表格存储架构信息、位置信息等。数据库是表的集合。Lake Formation 提供权限层次结构来控制对数据目录中的数据库和表的访问权限。

每个Amazon每个账户都有一个数据目录Amazon区域。

底层数据

底层数据指的是数据目录表所指向的数据湖中的源数据或数据湖中的数据。

主体

一个校长是Amazon Identity and Access Management(IAM) 用户或角色或活动目录用户。

数据湖管理员

一个数据湖管理员是可以向任何委托人(包括自己)授予对任何数据目录资源或数据位置的任何权限的委托人。指定数据湖管理员作为数据目录的第一个用户。然后,该用户可以向其他委托人授予更精细的资源权限。

注意

IAM 管理用户 — 具有AdministratorAccess Amazon托管策略 — 不会自动成为数据湖管理员。例如,他们无法授予对目录对象的 Lake Formation 权限,除非他们获得了这样做的权限。但是,他们可以使用 Lake Formation 控制台或 API 将自己指定为数据湖管理员。

有关数据湖管理员的功能的信息,请参阅Lake Formation 的. 有关指定用户为数据湖管理员的信息,请参阅创建数据湖管理员.

Lake Formation

Amazon Lake Formation依赖于多个组件之间的交互来创建和管理数据湖。

Lake Formation

您可以使用 Lake Formation 控制台定义和管理数据湖,并授予和撤销 Lake Formation 权限。您可以在控制台上使用蓝图来发现、清理、转换和摄取数据。您还可以启用或禁用单个 Lake Formation 用户对控制台的访问权限。

Lake Formation API 和命令行界面

Lake Formation 通过多个特定于语言的软件开发工具包和Amazon Command Line Interface(Amazon CLI)。Lake Formation API 与Amazon GlueAPI。Lake Formation API 主要关注管理 Lake Formation 权限,而Amazon GlueAPI 提供用于对您的数据定义、安排和运行 ETL 操作的数据目录 API 和托管基础设施。

有关的信息Amazon GlueAPI,请参阅Amazon Glue开发人员指南. 有关使用Amazon CLI,请参阅Amazon CLI命令参考.

其他 Amazon 服务

Lake Formation 使用以下服务:

  • Amazon Glue编排作业和爬网程序以使用Amazon Glue转换。

  • IAM向 Lake Formation 委托人授予权限策略。Lake Formation 权限模型增强了 IAM 权限模型以保护数据湖的安全。