什么是 Amazon Lake Formation? - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 Amazon Lake Formation?

欢迎阅读 Amazon Lake Formation 开发人员指南。

Amazon Lake Formation是一种完全托管服务,它使用户能够轻松地构建、保护和管理数据湖。Lake Formation 简化并自动执行了创建数据湖通常所需的许多复杂的手动步骤。这些步骤包括收集、清理、移动和编目数据,以及安全地将这些数据用于分析和机器学习。

Lake Formation 提供了自己的权限模型,用于增强 IAM 权限模型。这种集中定义的权限模型允许通过简单的授权或撤销机制(就像关系数据库管理系统 (RDM) 一样,对存储在数据湖中的数据进行精细访问。Lake Formation 权限是在各个列、行和单元格级别使用精细控件来强制执行的Amazon分析和机器学习服务,包括 Amazon Athena、Amazon QuickSight 和 Amazon Redshift。

Lake Formation 功能

Lake Formation 可以帮助您打破数据孤岛,将不同类型的结构化和非结构化数据合并到集中式存储库中。首先,识别 Amazon S3 或关系数据库和 NoSQL 数据库中的现有数据存储,然后将数据移动到数据湖中。然后对数据进行抓取、编目和准备以进行分析。接下来,通过您的用户选择的分析服务,为用户提供对数据的安全自助访问。

设置和数据管理

从已在中的数据库中导入数据Amazon

指定现有数据库的位置并提供访问凭据后,Lake Formation 会读取数据及其元数据(架构)以了解数据源的内容。然后,它将数据导入新的数据湖,并将元数据记录到中央目录中。使用 Lake Formation,您可以从 MySQL、PostgreSQL、SQL Server、MariaDB 和在 Amazon RDS 中运行或托管在 Amazon EC2 中的 Oracle 数据库导入数据。支持批量和增量数据加载。

从其他外部来源导入数据

您可以通过连接 Java 数据库连接 (JDBC),使用 Lake Formation 将数据从本地数据库移动数据。识别目标源并在控制台中提供访问凭据,然后 Lake Formation 读取数据并将数据加载到数据湖中。要从上面列出的数据库以外的其他数据库导入数据,您可以使用Amazon Glue.

对数据进行编目和标签

Lake Formation 会爬取并读取您的数据源以提取技术元数据,并创建可搜索的目录来为用户描述此信息,以便他们能够发现可用的数据集。您还可以在数据中添加自己的自定义标签(在表格和列级别)以定义属性,例如 “敏感信息” 和 “欧洲销售数据”。Lake Formation 提供了对此元数据的基于文本的搜索,以便您的用户可以快速找到他们需要分析的数据。有关向数据目录添加表的更多信息,请参阅管理数据目录表和数据库.

数据转换

Lake Formation 可以对数据执行转换,例如重写各种日期格式以确保一致性,以确保数据以便于分析的方式存储。Lake Formation 创建转换模板并安排作业,以便为分析准备数据。你的数据被转换Amazon Glue以柱状格式(如 Parquet 和 ORC)编写,以获得更好的性能。

清除和删除重复数据

Lake Formation 通过提供名为的机器学习转换来帮助清理和准备数据进行分析 FindMatches 用于重复数据删除和查找匹配记录。例如,使用 FindMatches 在餐厅数据库中查找重复的记录,例如当一条记录在 “121 Main St.” 上列出 “Joe Pizza” 另一个在 “121 Main” 上显示 “约瑟夫的比萨店”。 FindMatches 只会要求你将记录集标记为 “匹配” 或 “不匹配”。然后,系统将学习将一对记录调用为匹配项的标准,并将构建一个机器学习转换,您可以使用该转换在数据库中查找重复记录或在两个数据库中 FindMatches 记录。有关 findMatch 的详细信息,请参阅将记录与匹配Amazon Lake FormationFindMatches中的Amazon Glue开发人员指南.

存储优化

分析性能可能受到许多小文件存储效率低下的影响,这些文件是在将新数据写入数据湖时自动创建的。处理这些小文件会给分析服务带来额外的开销,并导致查询响应速度较慢。Lake Formation 包括一个存储优化器,它可以自动将小文件合并到较大的文件中,从而将查询速度提高 7 倍。此过程(通常称为压缩)是在后台执行的,因此在此过程中不会对生产工作负载造成性能影响。有关 Lake Formation 的存储优化功能的更多信息,请参阅受管理表的存储优化.

行级别和单元级安全性

Lake Formation 提供了数据筛选器,允许您限制对列和行组合的访问。使用行级和单元级安全保护敏感数据,例如个人身份信息 (PII)。有关行级别安全性的更多信息,请参阅数据筛选概述.

安全管理

定义和管理访问控制

Lake Formation 提供了一个单一的地方来管理数据湖中数据的访问控制。您可以定义安全策略,限制对数据库、表、列、行和单元格级别的数据的访问。这些策略适用于 IAM 用户和角色,以及通过外部身份提供商进行联合时的用户和组。您可以使用精细的控制来访问 Amazon Redshift Spectrum、Athena、Amazon GlueApache Spark 的 Amazon EMR 和 Amazon EMR。

实施审核记录

Lake Formation 提供全面的审计日志 CloudTrail 监控访问权限并显示对集中定义策略的遵守情况。您可以审核通过 Lake Formation 读取数据湖中的数据的分析和机器学习服务的数据访问历史记录。这使您可以查看哪些用户或角色试图访问哪些数据、使用哪些服务以及何时访问。您可以像访问其他任何其他日志一样访问审计日志 CloudTrail 使用 CloudTrail API 和控制台进行日志。有关 的更多信息 CloudTrail 日志请参阅日志系统AmazonLake Formation API 调用使用Amazon CloudTrail.

基于标签的访问控制

您可以对数据进行分类并限制对敏感信息的访问。您还可以将自己的自定义标签 (LF-Tags) 添加到表和列级别的数据,以定义属性,例如 “敏感信息” 或 “欧洲销售数据”。Lake Formation 提供了对此元数据的基于文本的搜索,因此您的用户可以快速找到他们需要分析的数据。您可以根据这些 LF 标签授予对数据的访问权限。有关基于标记的访问控制的更多信息,请参阅基于标签的 Lake Formation.

跨账户访问

Lake Formation 权限管理功能简化了跨多个分布式数据湖的保护和Amazon账户通过集中化方法,提供对数据目录和 Amazon S3Lotation 的细粒度访问控制。

受监管的表

数据湖需要始终向用户展示正确的数据视图,即使数据同时进行实时或频繁更新也是如此。加载流数据或合并来自多个源数据系统的更改需要 parallel 处理跨多个表的插入和删除操作。今天,开发人员编写自定义应用程序代码或使用开源工具来管理这些更新。这些解决方案复杂且难以扩展,因为编写应用程序代码在同时读取和写入相同数据时保持一致性是繁琐、脆弱且容易出错的。

Lake Formation 引入了新的 API,这些 API 使用新的数据湖表类型(称为受监管的表. 受管理的表允许多个用户使用清单在表之间同时插入和删除数据,同时仍允许其他用户在相同的数据集上同时运行分析查询和 ML 模型,这些数据集返回一致和 up-to-date 结果。

有关将交易与 Lake Formation 结合使用的更多信息,请参阅以下主题:

Amazon与 Lake Formation 的服务集成

以下Amazon与服务集成Amazon Lake Formation并尊重 Lake Formation 权限。

Amazon 服务 如何集成
Amazon Glue Amazon Glue和 Lake Formation 共享同一个数据目录。对于控制台操作(例如查看表列表)和所有 API 操作,Amazon Glue用户只能访问他们拥有 Lake Formation 权限的数据库和表。
注意

Amazon Glue不支持 Lake Formation 列权限。

Amazon Athena 何时Amazon Athena用户选择Amazon Glue在查询编辑器中的目录中,他们只能查询他们具有 Lake Formation 权限的数据库、表和列。不支持使用清单查询。

除了通过通过以下方式向 Athena 进行身份验证Amazon Identity and Access Management(IAM),Lake Formation 支持通过 JDBC 或 ODBC 驱动程序进行连接并通过 SAML 进行身份验证的 Athena 用户。受支持的 SAML 提供商包括 Okta 和微软活动目录联合服务 (AD FS)。有关更多信息,请参阅 。将 Lake Formation 和 Athena JDBC 和 ODBC 驱动程序用于对 Athena 进行联合访问中的Amazon Athena 用户指南.

注意

目前,以下区域不支持授权访问 Lake Formation 中的 SAML 身份:

  • 中东(巴林)- me-south-1

  • 亚太地区(香港)- ap-east-1

  • 非洲(开普敦)- af-south-1

  • 中国(宁夏)- cn-northwest-1

  • 亚太地区(大阪)– ap-northeast-3

Amazon Redshift Spectrum 当 Amazon Redshift 用户在中的数据库上创建外部架构时Amazon Glue目录中,他们只能查询他们拥有 Lake Formation 权限的模式中的表和列。

不支持使用清单查询。

亚马逊 QuickSight 企业版 当亚马逊 QuickSight 企业版用户在向 Lake Formation 注册的 Amazon S3 位置查询数据集,用户必须拥有 Lake FormationSELECT对数据的权限。
Amazon EMR 当使用 Apache Zeppelin 或 EMR Notebooks 提交 Apache Spark 应用程序时,会强制执行 Lake Formation 权限。

Lake Formation 也可以与Amazon Key Management Service(Amazon KMS),以便您能够更轻松地设置这些集成服务,以加密和解密 Amazon Simple Storage Service (Amazon S3) 位置中的数据。

支持的区域

对于Amazon Web Services 区域支持Amazon Lake Formation,请参阅Amazon Lake Formation定价.

有关每个区域的 Lake Formation 服务终端节点和 Lake Formation 服务配额的列表,请参阅Amazon Lake Formation终端节点和配额.

以下是 Lake Formation 的受管理表、事务支持、单元级安全性和存储优化功能Amazon Web Services 区域.

区域名称 区域参数
US East (N. Virginia) us-east-1
美国东部 (俄亥俄) us-east-2
US West (Oregon) us-west-2
Asia Pacific (Mumbai) ap-south-1
Asia Pacific (Seoul) ap-northeast-2
Asia Pacific (Singapore) ap-southeast-1
Asia Pacific (Sydney) ap-southeast-2
Asia Pacific (Tokyo) ap-northeast-1
欧洲(法兰克福) eu-central-1
Europe (Ireland) eu-west-1
Europe (London) eu-west-2
欧洲(斯德哥尔摩) eu-north-1
Canada (Central) ca-central-1

入手 Lake Formation

我们建议您从以下几部分入手: