配合使用 Amazon Lake Formation和 Amazon Glue
数据工程师和 DevOps 专业人员将带有提取、转换、加载 (ETL) 功能的 Amazon Glue 与 Apache Spark 配合使用,以在 Amazon S3 中对其数据集执行转换,并将转换后的数据加载到数据湖和数据仓库中用于分析、机器学习和应用程序开发。由于会有不同的团队访问 Amazon S3 中的相同数据集,因此必须根据其角色授予和限制权限。
Amazon Lake Formation 是在 Amazon Glue 上构建的,并且该服务通过以下方式进行交互:
-
Lake Formation 和 Amazon Glue 共享同一数据目录。
-
以下 Lake Formation 控制台功能可以调用 Amazon Glue 控制台:
-
作业 – 有关更多信息,请参阅《Amazon Glue 开发人员指南》中的添加作业。
-
爬网程序 – 有关更多信息,请参阅《Amazon Glue 开发人员指南》中的使用爬网程序编录数据。
-
-
使用 Lake Formation 蓝图时生成的工作流是 Amazon Glue 工作流。您可以在 Lake Formation 控制台和 Amazon Glue 控制台中查看和管理这些工作流。
-
机器学习转换功能在 Lake Formation 中提供,并且是针对 Amazon Glue API 操作构建的。您可以在 Amazon Glue 控制台上创建和管理机器学习转换功能。有关更多信息,请参阅《Amazon Glue 开发人员指南》中的机器学习转换。
您可以使用 Lake Formation 细粒度访问控制来管理现有的数据目录资源和 Amazon S3 数据位置。
注意
Amazon Glue 5.0 或更高版本支持对由 S3 支持的 Iceberg 和 Hive 表实施精细访问控制。借助此功能,您可以为 Amazon Glue for Apache Spark 作业中的读取查询配置表、行、列和单元格级别的访问控制。
支持事务表类型
通过应用 Lake Formation 权限,您可以保护基于 Amazon S3 的数据湖中的事务数据。下表列出了 Amazon Glue 中支持的事务表格式以及 Lake Formation 权限。Lake Formation 对 Amazon Glue 操作强制执行这些权限。
| 表格式 | 描述和允许的操作 | Amazon Glue 中支持的 Lake Formation 权限 |
|---|---|---|
|
Apache Hudi |
一种开放表格格式,用于简化增量数据处理和数据管线开发。 有关示例,请参阅在 Amazon Glue 中使用 Hudi 框架。 |
表级权限可用于 Hudi 表。 有关更多信息,请参阅限制。 |
|
Apache Iceberg |
一种开放表格格式,可将大量文件作为表进行管理。 有关示例,请参阅在 Amazon Glue 中使用 Iceberg 框架。 |
借助 Amazon Glue 5.0 及更高版本,您可以为 Iceberg 表的 Amazon Glue for Apache Spark 作业中的读取查询配置表、行、列和单元格级别的访问控制。 有关更多信息,请参阅限制。 |
|
Linux Foundation Delta Lake |
Delta Lake 是一个开源项目,可帮助实施通常在 Amazon S3 或 Hadoop Distributed File System (HDFS) 上构建的现代数据湖架构。 有关示例,请参阅在 Amazon Glue 中使用 Delta Lake 框架。 |
表级权限可用于 Delta Lake 表。 有关更多信息,请参阅限制。 |
其他资源
博客文章和存储库
-
使用 Amazon Glue 连接器对带有 ACID 事务的 Apache Iceberg 表执行读取和写入操作,并执行时间旅行
-
Cloudformation 模板和 pyspark 代码示例
的 Amazon 存储库,用于使用 Amazon Glue Apache Hudi 和 Amazon S3 分析流式传输数据。