配合使用 Amazon Lake Formation和 Amazon Glue - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

配合使用 Amazon Lake Formation和 Amazon Glue

数据工程师和 DevOps 专业人员将带有提取、转换、加载 (ETL) 功能的 Amazon Glue 与 Apache Spark 配合使用,以在 Amazon S3 中对其数据集执行转换,并将转换后的数据加载到数据湖和数据仓库中用于分析、机器学习和应用程序开发。由于会有不同的团队访问 Amazon S3 中的相同数据集,因此必须根据其角色授予和限制权限。

Amazon Lake Formation 是在 Amazon Glue 上构建的,并且该服务通过以下方式进行交互:

  • Lake Formation 和 Amazon Glue 共享同一数据目录。

  • 以下 Lake Formation 控制台功能可以调用 Amazon Glue 控制台:

    • 作业 – 有关更多信息,请参阅《Amazon Glue 开发人员指南》中的添加作业

    • 爬网程序 – 有关更多信息,请参阅《Amazon Glue 开发人员指南》中的使用爬网程序编录数据

  • 使用 Lake Formation 蓝图时生成的工作流是 Amazon Glue 工作流。您可以在 Lake Formation 控制台和 Amazon Glue 控制台中查看和管理这些工作流。

  • 机器学习转换功能在 Lake Formation 中提供,并且是针对 Amazon Glue API 操作构建的。您可以在 Amazon Glue 控制台上创建和管理机器学习转换功能。有关更多信息,请参阅《Amazon Glue 开发人员指南》中的机器学习转换

您可以使用 Lake Formation 细粒度访问控制来管理现有的数据目录资源和 Amazon S3 数据位置。

注意

Amazon Glue 5.0 或更高版本支持对由 S3 支持的 Iceberg 和 Hive 表实施精细访问控制。借助此功能,您可以为 Amazon Glue for Apache Spark 作业中的读取查询配置表、行、列和单元格级别的访问控制。

支持事务表类型

通过应用 Lake Formation 权限,您可以保护基于 Amazon S3 的数据湖中的事务数据。下表列出了 Amazon Glue 中支持的事务表格式以及 Lake Formation 权限。Lake Formation 对 Amazon Glue 操作强制执行这些权限。

支持的表格格式
表格式 描述和允许的操作 Amazon Glue 中支持的 Lake Formation 权限

Apache Hudi

一种开放表格格式,用于简化增量数据处理和数据管线开发。

有关示例,请参阅在 Amazon Glue 中使用 Hudi 框架

表级权限可用于 Hudi 表。

有关更多信息,请参阅限制

Apache Iceberg

一种开放表格格式,可将大量文件作为表进行管理。

有关示例,请参阅在 Amazon Glue 中使用 Iceberg 框架

借助 Amazon Glue 5.0 及更高版本,您可以为 Iceberg 表的 Amazon Glue for Apache Spark 作业中的读取查询配置表、行、列和单元格级别的访问控制。

有关更多信息,请参阅限制

Linux Foundation Delta Lake

Delta Lake 是一个开源项目,可帮助实施通常在 Amazon S3 或 Hadoop Distributed File System (HDFS) 上构建的现代数据湖架构。

有关示例,请参阅在 Amazon Glue 中使用 Delta Lake 框架

表级权限可用于 Delta Lake 表。

有关更多信息,请参阅限制

其他资源