本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
限制
在数据湖框架与 Amazon Glue 配合使用之前,请考虑以下限制。
-
以下Amazon Glue
GlueContext
方法 DynamicFrame 不支持读取和写入数据湖框架表。请改用 DataFrame 或 Spark DataFrame APIGlueContext
的方法。-
Lake F DynamicFrame ormation 权限控制不支持以下
GlueContext
方法:-
create_dynamic_frame.from_catalog
-
write_dynamic_frame.from_catalog
-
getDynamicFrame
-
writeDynamicFrame
-
-
Lake For DataFrame mation 权限控制支持以下
GlueContext
方法:-
create_data_frame.from_catalog
-
write_data_frame.from_catalog
-
getDataFrame
-
writeDataFrame
-
-
-
不支持对小文件进行分组。
-
不支持作业书签。
-
Apache Hudi 0.10.1 for Amazon Glue 3.0 不支持 Read (MoR) 表上的 Hudi Merge。
-
ALTER TABLE … RENAME TO
不适用于 Apache Iceberg 0.13.1 for Amazon Glue 3.0。
有关由 Lake Formation 权限管理的数据湖格式表的限制
数据湖格式通过 Lake Formation 权限与 Amazon Glue ETL 集成。create_dynamic_frame
不支持创建 DynamicFrame 使用。有关更多信息,请参阅以下示例:
注意
仅在 Amazon Glue 版本 4.0 中支持通过适用于 Apache Hudi、Apache Iceberg 和 Delta Lake 的 Lake Formation 权限与 Amazon Glue ETL 集成。
Apache Iceberg 通过 Lake Formation 权限与 Amazon Glue ETL 集成的效果最好。它支持几乎所有操作,包括支持 SQL。
Hudi 支持除管理操作之外的大多数基本操作。这是因为这些选项通常通过写入 DataFrame 来完成,并通过 additional_options
指定。由于不支持 sparkSQL,因此您需要使用 Amazon Glue API 来 DataFrames 为自己的操作进行创建。
Delta Lake 仅支持读取、附加和覆盖表数据。Delta Lake 需要使用自己的库才能执行更新等各种任务。
由 Lake Formation 权限管理的 Iceberg 表不支持以下功能。
使用 ETL Amazon Glue 进行压缩
通过 Amazon Glue ETL 支持 Spark SQL
由 Lake Formation 权限管理的 Hudi 表存在以下限制:
移除孤立文件
由 Lake Formation 权限管理的 Delta Lake 表存在以下限制:
除在 Delta Lake 表中插入和读取数据的所有其他功能。