

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 将 Apache Hudi 与 EMR Serverless 结合使用
<a name="using-hudi"></a>

本节介绍了如何将 Apache Hudi 与 EMR Serverless 应用程序结合使用。Hudi 是一个数据管理框架，使数据处理更加简单。

**将 Apache Hudi 与 EMR Serverless 应用程序结合使用**

1. 在相应的 Spark 作业运行中设置所需的 Spark 属性。

   ```
   spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,/usr/lib/hudi/hudi-utilities-bundle.jar,/usr/lib/hudi/hudi-aws-bundle.jar
   spark.serializer=org.apache.spark.serializer.KryoSerializer
   ```

1. 要将 Hudi 表同步到配置的目录，请将 Glue Amazon 数据目录指定为您的元数据库，或者配置外部元数据库。EMR Serverless 支持 `hms` 作为 Hudi 工作负载 Hive 表的同步模式。EMR Serverless 默认激活此属性。要进一步了解如何设置元存储，请参阅 [EMR Serverless 的元存储配置](metastore-config.md)。
**重要**  
EMR Serverless 不支持 `HIVEQL` 或 `JDBC` 作为 Hive 表的同步模式选项来处理 Hudi 工作负载。要了解更多信息，请参阅[同步模式](https://hudi.apache.org/docs/next/syncing_metastore/#sync-modes)。

   使用 Glue Amazon 数据目录作为元数据存储时，请为 Hudi 作业指定以下配置属性。

   ```
   --conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,
   --conf spark.serializer=org.apache.spark.serializer.KryoSerializer,
   --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
   ```

要了解有关 Amazon EMR 的 Apache Hudi 版本的更多信息，请参阅 [Hudi 版本历史记录](https://docs.amazonaws.cn/emr/latest/ReleaseGuide/Hudi-release-history.html)。