将 Apache Hudi 与 EMR Serverless 结合使用

本节介绍了如何将 Apache Hudi 与 EMR Serverless 应用程序结合使用。Hudi 是一个数据管理框架，使数据处理更加简单。

将 Apache Hudi 与 EMR Serverless 应用程序结合使用

在相应的 Spark 作业运行中设置所需的 Spark 属性。


spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,/usr/lib/hudi/hudi-utilities-bundle.jar,/usr/lib/hudi/hudi-aws-bundle.jar
spark.serializer=org.apache.spark.serializer.KryoSerializer

要将 Hudi 表同步到配置的目录，请将 Glue Amazon 数据目录指定为您的元数据库，或者配置外部元数据库。EMR Serverless 支持 hms 作为 Hudi 工作负载 Hive 表的同步模式。EMR Serverless 默认激活此属性。要进一步了解如何设置元存储，请参阅 EMR Serverless 的元存储配置。

重要
EMR Serverless 不支持 HIVEQL 或 JDBC 作为 Hive 表的同步模式选项来处理 Hudi 工作负载。要了解更多信息，请参阅同步模式。

使用 Glue Amazon 数据目录作为元数据存储时，请为 Hudi 作业指定以下配置属性。
```
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
--conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
--conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
```

要了解有关 Amazon EMR 的 Apache Hudi 版本的更多信息，请参阅 Hudi 版本历史记录。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

使用 Java 17

使用 Iceberg

将 Apache Hudi 与 EMR Serverless 结合使用

将 Apache Hudi 与 EMR Serverless 应用程序结合使用

重要