本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
将 Apache Hudi 与 EMR Serverless 结合使用
本节介绍了如何将 Apache Hudi 与 EMR Serverless 应用程序结合使用。Hudi 是一个数据管理框架,使数据处理更加简单。
将 Apache Hudi 与 EMR Serverless 应用程序结合使用
-
在相应的 Spark 作业运行中设置所需的 Spark 属性。
spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar,/usr/lib/hudi/hudi-utilities-bundle.jar,/usr/lib/hudi/hudi-aws-bundle.jar spark.serializer=org.apache.spark.serializer.KryoSerializer -
要将 Hudi 表同步到配置的目录,请将 Glue Amazon 数据目录指定为您的元数据库,或者配置外部元数据库。EMR Serverless 支持
hms作为 Hudi 工作负载 Hive 表的同步模式。EMR Serverless 默认激活此属性。要了解有关如何设置元数据仓的更多信息,请参阅。EMR Serverless 的元存储配置重要
EMR Serverless 不支持
HIVEQL或JDBC作为 Hive 表的同步模式选项来处理 Hudi 工作负载。要了解更多信息,请参阅同步模式。 使用 Glue Amazon 数据目录作为元数据存储时,请为 Hudi 作业指定以下配置属性。
--conf spark.jars=/usr/lib/hudi/hudi-spark-bundle.jar, --conf spark.serializer=org.apache.spark.serializer.KryoSerializer, --conf spark.hadoop.hive.metastore.client.factory.class=com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory
要了解有关亚马逊 EMR 的 Apache Hudi 版本的更多信息,请参阅 Hudi 发布历史记录。