在 Amazon Athena for Apache Spark 中使用非 Hive 表格式 - Amazon Athena
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 Amazon Athena for Apache Spark 中使用非 Hive 表格式

在 Athena for Spark 中使用会话和笔记本时,除了 Apache Hive 表之外,还可以使用 Linux Foundation Delta Lake、Apache Hudi 和 Apache Iceberg 表。

注意事项和限制

在 Athena for Spark 中使用除 Apache Hive 以外的表格式时,请考虑以下几点:

  • 除了 Apache Hive 之外,每个笔记本仅支持一种表格式。要在 Athena for Spark 中使用多种表格式,为每种表格式创建一个单独的笔记本。有关在 Athena for Spark 中创建笔记本的信息,请参阅 创建您自己的笔记本

  • Delta Lake、Hudi 和 Iceberg 表格式已在 Athena for Spark 上使用 Amazon Glue 作为元存储进行了测试。也可以使用其他元存储,但目前不支持这种用法。

  • 要使用其他表格式,按照 Athena 控制台和本文档中的说明覆盖默认 spark_catalog 属性。这些非 Hive 目录除了可以读取其自己的表格式,还可以读取 Hive 表。

表格版本

下表显示了 Amazon Athena for Apache Spark 中支持的非 Hive 表版本。

表格式 支持的版本
Apache Iceberg 1.2.1
Apache Hudi 0.13
Linux Foundation Delta Lake 2.0.2

在 Athena for Spark 中,这些表格式 .jar 文件及其依赖项将加载到 Spark 驱动程序和执行程序的类路径中。