AWS Lake Formation:工作方式 - AWS Lake Formation
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS Lake Formation:工作方式

AWS Lake Formation 使您更容易构建、保护和管理数据湖。 Lake Formation 可帮助您直接或通过其他AWS服务执行以下操作:

  • 注册 Amazon Simple Storage Service (人Amazon S3)存储桶和路径,您的数据湖将驻留。

  • 编排数据流,用于摄取、清除、转换和组织原始数据。

  • 创建和管理 Data Catalog 包含有关数据源和数据湖中的数据的元数据。

  • 通过授予/撤销权限模型定义元数据和数据的粒度数据访问策略。

下图说明了数据如何加载和保护 Lake Formation.


            显示了来自AmazonS3、关系和 NoSQL 数据库,到AmazonS3数据湖,到分析服务。

如图所示 Lake Formation 管理 AWS Glue 爬网器, AWS Glue ETL作业, Data Catalog、安全设置和访问控制。将数据安全存储在数据湖中后,用户可以通过其选择的分析服务访问数据,包括 Amazon Athena, Amazon Redshift,和 Amazon EMR.

Lake Formation 术语

以下是您将在本指南中遇到的一些重要术语。

数据湖

数据湖 是存储在 Amazon S3 并由 Lake Formation 使用 Data Catalog. 数据湖通常存储以下内容:

  • 结构化和非结构化数据

  • 原始数据和转换数据

对于 Amazon S3 在数据湖内的路径,它必须 已注册 配 Lake Formation.

数据访问

Lake Formation 通过新的授予/撤销权限模型(增强了 AWS Identity and Access Management (人IAM)政策。

分析师和数据科学家可以使用完整的AWS分析和机器学习服务组合,例如 Amazon Athena,以访问数据。已配置 Lake Formation 安全策略有助于确保用户只能访问他们有权访问的数据。

Blueprint

蓝图 是数据管理模板,可让您轻松将数据摄取数据湖。 Lake Formation 提供多个蓝图,每个蓝图都用于预定义源类型,例如关系数据库或 AWS CloudTrail 记录。从蓝图中,您可以创建工作流。工作流程包括 AWS Glue 生成的爬网器、作业和触发器,以协调数据的加载和更新。蓝图将数据源、数据目标和计划作为输入来配置工作流程。

Workflow

工作流 是一组相关 AWS Glue 作业、爬网器和触发器。您可以在以下位置创建工作流程: Lake Formation,并在 AWS Glue 服务。 Lake Formation 可作为单个实体跟踪工作流的状态。

定义工作流时,您可以选择它所依据的蓝图。然后,您可以按需或按计划运行工作流。

您在中创建的工作流程 Lake Formation 可见于 AWS Glue 控制台作为定向非循环图形(DAG)。使用DAG,您可以跟踪工作流程的进度并执行故障排除。

Data Catalog

Data Catalog是您的持久性元数据存储。它是一项托管服务,可让您在 AWS 云中存储、注释和共享元数据,就像在 Apache Hive 元存储中一样。它提供了一个统一的存储库,不同系统可以在其中存储和查找元数据,以跟踪数据孤岛中的数据,然后使用该元数据查询和转换数据。 Lake Formation 使用 AWS Glue Data Catalog 存储有关数据湖、数据源、转换和目标的元数据。

有关数据源和目标的元数据采用数据库和表的形式。表存储框架信息、位置信息等。数据库是表的集合。 Lake Formation 提供了一个权限层次,以控制对数据库和表的访问,位于 Data Catalog.

每个AWS帐户都有一个 Data Catalog 每个AWS区域。

基础数据

基础数据 指源数据或数据湖内的 Data Catalog 表指向。

Principal

主体 是 AWS Identity and Access Management (人IAM)用户或角色或ActiveDirectory用户。

数据湖管理员

数据湖管理员 是委托人,其可授予任何委托人(包括自己)任何权限 Data Catalog 资源或数据位置。将数据湖管理员指定为 Data Catalog. 然后,此用户可以将资源的更多粒度权限授予其他主体。

注意

IAM 管理用户—具有 AdministratorAccess AWS管理策略-不是自动数据湖管理员。例如,他们无法授予 Lake Formation 目录对象的权限,除非已授予这些对象执行此操作的权限。但是,他们可以使用 Lake Formation 控制台或API将其指定为数据湖管理员。

有关数据湖管理员功能的信息,请参阅 隐含的 Lake Formation 权限. 有关将用户指定为数据湖管理员的信息,请参阅 创建DataLake管理员.

Lake Formation 组件

AWS Lake Formation 依靠多个组件的交互来创建和管理您的数据湖。

Lake Formation 控制台

您使用 Lake Formation 控制台,以定义和管理您的数据湖并授予和撤销 Lake Formation 权限。您可以使用控制台上的蓝图发现、清除、转换和拷贝数据。您还可以启用或禁用个人 Lake Formation 用户。

Lake Formation API和命令行界面

Lake Formation 通过多种特定语言提供API操作 SDKs 和 AWS Command Line Interface (人AWS CLI)。的 Lake Formation API与 AWS Glue API。的 Lake Formation API主要侧重于管理 Lake Formation 权限,同时 AWS Glue API提供数据目录API和托管基础架构,用于定义、调度和运行数据上的ETL操作。

有关 AWS Glue API 的信息,请参阅 AWS Glue 开发人员指南。有关使用的信息 AWS CLI,请参阅 AWS CLI Command Reference.

其他AWS服务

Lake Formation 使用以下服务:

  • AWS Glue 协调作业和爬网程序,以使用 AWS Glue 转换。

  • IAM 将权限策略授予 Lake Formation 原则。的 Lake Formation 权限模型增强了 IAM 权限模型来保护您的数据湖。