什么是 Amazon Lake Formation？

欢迎阅读 Amazon Lake Formation 开发者指南。

Amazon Lake Formation 帮助您集中管理、保护和全球共享用于分析和机器学习的数据。您可以对 Amazon Simple Storage Service (Amazon S3) 上的数据湖数据及其在 Amazon Glue Data Catalog中的元数据进行精细访问控制。

Lake Formation 提供了自己的权限模型，该模型增强了 IAM 权限模型。Lake Formation 权限模型支持通过简单的授予或撤销机制对存储在数据湖中的数据以及外部数据来源（例如 Amazon Redshift 数据仓库、 Amazon DynamoDB 数据库和第三方数据来源）进行精细访问，这与关系数据库管理系统（RDBMS）非常相似。Lake Formation 权限是使用 Amazon 分析和机器学习服务（包括亚马逊 Athena、Amazon Redsh Amazon Quick ift Spectrum、亚马逊 EMR 和）的列、行和单元格级别的精细控制来强制执行 Lake Formation 权限。 Amazon Glue

借助 Amazon Glue Data Catalog （数据目录）的 Lake Formation 混合访问模式，您可以使用 Lake Formation 权限和 Amazon S3 和 Amazon Glue 操作的 IAM 权限策略来保护和访问已编目的数据。借助混合访问模式，数据管理员可以有选择地以增量方式加载 Lake Formation 权限，一次专注于一个数据湖用例。

Lake Formation 还允许您在多个 Amazon 组织之间在内部和外部共享数据 Amazon Web Services 账户，或者直接与另一个账户中的 IAM 委托人共享数据，从而提供对数据目录元数据和底层数据的精细访问权限。

主题

Lake Formation 特征

Lake Formation 可帮助您打破数据孤岛，并将不同类型的结构化和非结构化数据合并到一个集中式存储库中。首先，确定 Amazon S3 或关系数据库和 NoSQL 数据库中的现有数据存储，然后将数据移动到数据湖中。然后对数据进行抓取、编目和准备以供分析。接下来，通过用户选择的分析服务，为他们提供对数据的安全自助访问。

您可以使用 Lake Formation 控制台，在 Data Catalog 中创建多级联合目录，并统一 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据。您还可以整合来自操作数据库（例如，Google Amazon DynamoDB BigQuery、MySQL 等）的数据以及第三方数据源的数据。Data Catalog 提供了一个集中式元数据存储库，使管理和发现不同系统中的数据变得更加容易。

有关更多信息，请参阅将您的数据带入 Amazon Glue Data Catalog。

数据摄取和管理

从已有的数据库中导入数据 Amazon

指定现有数据库的位置并提供访问凭证后，Lake Formation 就会读取数据及其元数据（架构）以了解数据来源的内容。然后，它会将数据导入您的新数据湖，并将元数据记录在中央目录中。借助 Lake Formation，您可以从在 Amazon RDS 中运行或托管在 Amazon EC2 中的 MySQL、PostgreSQL、SQL Server、MariaDB 和 Oracle 数据库导入数据。支持批量和增量数据加载。

从其他外部来源导入数据

您可以使用 Lake Formation 通过与 Java Database Connectivity (JDBC) 连接来从本地数据库移动数据。确定您的目标来源并在控制台中提供访问凭证，然后 Lake Formation 会读取您的数据并将其加载到数据湖中要从上面列出的数据库以外的数据库导入数据，您可以使用创建自定义 ETL 作业。 Amazon Glue

对数据进行编目和标记

您可以使用 Amazon Glue 爬网程序读取 Amazon S3 中的数据，提取数据库和表架构，并将这些数据存储在可搜索的数据目录中。然后，使用 Lake Formation Lake Formation 基于标签的访问控制 (TBAC) 管理对数据库、表和列的权限。有关将表添加到数据目录的更多信息，请参阅在中创建对象 Amazon Glue Data Catalog。

安全管理

定义和管理访问控制

Lake Formation 提供了一个位置来管理数据湖中数据的访问控制。您可以定义安全策略，以限制对数据库、表、列、行和单元格级别的数据的访问。这些策略适用于 IAM 用户和角色，也适用于通过外部身份提供商进行联合身份验证时的用户和组。你可以使用精细的控制来访问由 Lake Formation 在 Amazon Redshift Spectrum、Athena、 Amazon Glue ETL 和 Apache Spark 的亚马逊 EMR 中保护的数据。每当您创建 IAM 身份时，请确保遵循 IAM 最佳实践。有关更多信息，请参阅《IAM 用户指南》中的安全最佳实践。

混合访问模式

Lake Formation 混合访问模式让您能够灵活地选择为 Data Catalog 中的数据库和表启用 Lake Formation 权限。在混合访问模式下，您现在有了增量路径，可您为一组特定的用户设置 Lake Formation 权限，而不会中断其他现有用户或工作负载的权限策略。有关更多信息，请参阅混合访问模式。

实施审计日志记录

Lake Formation 提供全面的审计日志， CloudTrail 用于监控访问情况并显示对集中定义策略的遵守情况。您可以跨分析和机器学习服务审核数据访问历史记录，这些服务通过 Lake Formation 读取数据湖中的数据。这使您可以查看哪些用户或角色尝试访问了哪些数据、使用了哪些服务以及何时访问了数据和使用了服务。您可以像使用 CloudTrail APIs 和控制台访问任何其他 CloudTrail 日志一样访问审核日志。有关 CloudTrail 日志的更多信息，请参阅使用记录 Amazon Lake Formation API 调用 Amazon CloudTrail。

行和单元格级别安全功能

Lake Formation 提供了数据筛选条件，允许您限制对列和行组合的访问。使用行和单元格级别安全功能来保护敏感数据，例如个人身份信息 (PII)。有关行级别安全功能的更多信息，请参阅Lake Formation 中的数据筛选和单元格级别安全性。

基于标签的访问控制

使用 Lake Formation 基于属性的访问控制，通过创建称为 LF 标签的自定义标签来管理数百甚至数千个数据权限。您现在可以定义 LF 标签并将其附加到数据库、表或列。然后，跨分析、机器学习 (ML) 和提取、转换、加载 (ETL) 服务共享受控访问权限以供使用。LF 标签通过将数千个资源的策略定义替换为几个逻辑标签，确保可以轻松扩展数据治理。Lake Formation 提供了对这些元数据的基于文本的搜索，因此您的用户可以快速找到他们需要分析的数据。

基于属性的访问控制

使用基于属性的访问控制来授予对 Data Catalog 对象的访问权限。基于属性的访问控制 (ABAC) 是一种基于属性定义权限的授权策略。 Amazon 调用这些属性标签。您可以使用 ABAC 向同一账户或另一个账户中的主体授予对 Data Catalog 资源的访问权限。具有匹配 IAM 标签或会话标签键和值的任何 IAM 主体都可以获得资源的访问权限。您必须对资源拥有可授予的权限才能进行这些授予。

跨账户访问

Lake Formation 权限管理功能通过集中式方法简化了跨多个 Amazon 账户的分布式数据湖的保护和管理，提供了对数据目录和 Amazon S3 位置的精细访问控制。有关更多信息，请参阅 Lake Formation 中的跨账户数据共享。

联合身份验证功能使您能够对存储在不同数据来源（如 Amazon Redshift）中的数据集创建联合目录和设置权限，而无需将数据或元数据迁移到 Amazon S3 或 Amazon Glue Data Catalog。您可以使用以下方法在 Lake Formation 中引入数据并管理对外部数据集的权限：

有关更多信息，请参阅将数据引入 Amazon Glue Data Catalog。

将 Amazon Redshift 数据仓库中的数据引入 Amazon Glue Data Catalog：向 Data Catalog 注册现有的 Amazon Redshift 命名空间或集群，然后在 Data Catalog 中创建多级联合目录。

您可以使用任何与 Apache Iceberg REST 目录 OpenAPI 规格兼容的查询引擎（例如，Amazon EMR Serverless 和 Amazon Athena）访问您的数据。

有关更多信息，请参阅将亚马逊 Redshift 数据引入 Amazon Glue Data Catalog。
从外部数据源联合到数据目录 — 使用 Amazon Glue 连接将数据目录连接到外部数据源，并创建联合目录以使用 Lake Formation 集中管理数据集的访问权限。无需将元数据迁移到 Data Catalog。

有关更多信息，请参阅联合到外部数据源中 Amazon Glue Data Catalog。
将 Amazon S3 表存储桶与数据目录集成 — 您可以通过 Lake Formation 控制台或使用 Amazon Glue APIs将 Amazon S3 表作为数据目录对象发布和编目，并将该目录注册为 Lake Formation 数据位置。

有关更多信息，请参阅 Amazon S3 表格与 Amazon Glue Data Catalog 和的集成 Amazon Lake Formation。
创建目录来管理 Data Catalog 中的 Amazon Redshift 表：您现在可能没有可用的 Amazon Redshift 创建器集群或 Amazon Redshift 数据共享，但想使用 Data Catalog 来创建和管理 Amazon Redshift 表。首先，您可以使用 glue:CreateCatalog API 创建 Amazon Glue 托管目录，也可以将目录类型设置为 Red Amazon Lake Formation shift，也可以通过将目录类型设置Catalog source为 Managed Red shift 来创建托管目录。

有关更多信息，请参阅在中创建亚马逊 Redshift 托管目录 Amazon Glue Data Catalog。
将 Lake Formation 与 Amazon Redshift 数据共享集成 – 使用 Lake Formation 集中管理 Amazon Redshift 数据共享的数据库、表、列和行级别访问权限，并限制用户对数据共享内对象的访问。
将数据目录连接到外部元数据仓库 — 使用 Lake Formation Amazon Glue Data Catalog 连接到外部元数据仓库以管理 Amazon S3 中数据集的访问权限。无需将元数据迁移到 Data Catalog。

有关更多信息，请参阅管理对使用外部元存储的数据集的权限。
将 Lake Form Amazon ation 与 Data Exchang e 集成 — Lake Formation 支持通过许可访问您的数据 Amazon Web Services Data Exchange。如果您有兴趣获得 Lake Formation 数据的许可，请参阅《Amazon Web Services Data Exchange 用户指南》中的什么是 Amazon Web Services Data Exchange？。

Lake Formation 入门

我们建议您首先阅读以下部分：

Amazon Lake Formation：工作原理 - 了解基本术语以及各个组件的交互方式。
Lake Formation 入门 - 获取有关先决条件的信息，并完成重要的设置任务。
Amazon Lake Formation 教程— 按照 step-by-step教程学习如何使用 Lake Formation。
Amazon Lake Formation 中的安全 - 了解如何帮助用户在 Lake Formation 中安全地访问数据。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

工作原理