什么是 Amazon Lake Formation? - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Lake Formation?

欢迎阅读 Amazon Lake Formation 开发人员指南。

Amazon Lake Formation是一项完全托管的服务,可轻松构建、保护和管理数据湖。Lake Formation 简化并自动化了创建数据湖通常所需的许多复杂的手动步骤。这些步骤包括收集、清理、移动和编目数据,以及安全地将这些数据用于分析和机器学习。

Lake Formation 提供了自己的权限模型,该模型增强了 IAM 权限模型。这种集中定义的权限模型允许通过简单的授予或撤消机制对存储在数据湖中的数据进行精细访问,就像关系数据库管理系统 (RDMS) 一样。Lake Formation 权限是通过对Amazon分析和机器学习服务(包括亚马逊 Athena、亚马逊和Amazon Redshift ft)的列、行和单元格级别进行精细控制来强制执行的。 QuickSight

Formation

Lake Formation 可帮助您打破数据孤岛,并将不同类型的结构化和非结构化数据结合到一个集中式存储库中。首先,确定 Amazon S3 或关系和 NoSQL 数据库中的现有数据存储,然后将数据移入您的数据湖。然后对数据进行抓取、编目和准备以供分析。接下来,通过用户选择的分析服务,为他们提供安全的自助服务访问数据。

数据摄取和管理

从已经存在的数据库中导入数据Amazon

指定现有数据库的位置并提供访问凭据后,Lake Formation 将读取数据及其元数据(架构)以了解数据源的内容。然后,它将数据导入您的新数据湖,并将元数据记录在中央目录中。使用 Lake Formation,您可以从在 Amazon RDS 中运行或托管在 Amazon EC2 中的 MySQL、PostgreSQL、SQL Server、MariaDB 和 Oracle 支持批量和增量数据加载。

从其他外部来源导入数据

您可以使用 Lake Formation 通过连接 Java 数据库连接 (JDBC) 将数据从本地数据库中移出。确定您的目标源并在控制台中提供访问凭证,Lake Formation 会读取您的数据并将其加载到数据湖中。要从上面列出的数据库以外的数据库导入数据,您可以使用创建自定义 ETL 任务Amazon Glue。

对您的数据进行编目和标记

您可以使用Amazon Glue爬网程序来读取 Amazon S3 中的数据并提取数据库和表架构,并将数据存储在可搜索的内容中Amazon Glue Data Catalog。然后,使用基于 Lake Formation 标签的访问控制 (TBAC) 来管理数据库、表和列的权限。有关向数据目录中添加表的更多信息,请参阅管理数据目录表和数据库

安全管理

定义和管理访问控制

Lake Formation 提供了一个管理数据湖中数据的访问控制的地方。您可以定义安全策略来限制对数据库、表、列、行和单元格级别的数据的访问。这些策略适用于 IAM 用户和角色,也适用于通过外部身份提供商进行联合时的用户和群组。你可以使用精细的控制来访问Amazon Redshift Spectrum Spectrum、Athena、Amazon Glue ETL 和 Apache Spark 上由 Lake Formation 保护的数据。每当您创建 IAM 身份时,请确保遵循 IAM 最佳实践。有关更多信息,请参阅 IAM 用户指南中的 IAM 安全性最佳实践

实现审计日志记录

Lake Formation 提供全面的审计日志 CloudTrail ,用于监控访问情况并显示对集中定义策略的遵守情况。您可以审核分析和机器学习服务的数据访问历史记录,这些服务通过 Lake Formation 读取数据湖中的数据。这使您可以查看哪些用户或角色尝试访问了哪些数据、使用了哪些服务以及何时尝试访问了哪些数据。您可以像使用 CloudTrail API 和控制台访问任何其他 CloudTrail 日志一样访问审计日志。有关 CloudTrail 日志的更多信息,请参阅日志系统AmazonLake Formation API 调用使用Amazon CloudTrail

行和单元级别安全性

Lake Formation 提供了数据过滤器,允许您限制对列和行的组合的访问权限。使用行级和单元级安全性来保护敏感数据,例如个人身份信息 (PII)。有关行级别安全性的更多信息,请参阅数据筛选概述

基于标签的访问控制

通过创建名为 Lake Formation 标签的自定义标签,使用基于 Lake Formation 标签的访问控制来管理数百甚至数千个数据权限。现在,您可以定义 LF 标签并将其附加到数据库、表或列。然后,在分析、机器学习(ML)以及提取、转换和加载(ETL)服务之间共享受控访问以供使用。LF-tags 通过将数千种资源的策略定义替换为几个逻辑标签,确保可以轻松扩展数据治理。Lake Formation 针对这些元数据提供基于文本的搜索,因此您的用户可以快速找到他们需要分析的数据。

跨账户访问

Lake Formation 权限管理功能通过集中化方法简化了跨多个Amazon账户的分布式数据湖的保护和管理,提供了对数据目录和 Amazon S3 站点的精细访问控制。有关更多信息,请参阅Formation 中的跨账户数据共享

数据共享

数据共享功能允许您对存储在 Amazon Redshift 等不同数据源中的数据集设置权限,而无需将数据或元数据迁移到 Amazon S3 或Amazon Glue Data Catalog. 您可以使用以下方法在 Lake Formation 中共享数据:

有关更多信息,请参阅 Lake Formation 中的数据共享

FormatiLake Formation 入门

我们建议您首先阅读以下部分: