

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Hudi
<a name="emr-hudi"></a>

[Apache Hudi](https://hudi.apache.org/) 是一种开源数据管理框架，用于通过提供记录级插入、更新、更新插入和删除功能来简化增量数据处理和数据管道开发工作。*更新插入*指的是将记录插入到现有数据集中（如果它们不存在）或对数据集进行更新（如果它们存在）的功能。通过高效地管理数据在 Amazon S3 中的布局方式，Hudi 允许近乎实时地摄取和更新数据。Hudi 仔细维护对数据集执行的操作的元数据，以帮助确保操作是原子级且是一致的。

Hudi 集成了 [Apache Spark](https://www.amazonaws.cn/emr/features/spark/)、[Apache Hive](https://hive.apache.org/) 和 [Presto](https://prestodb.github.io)。在 Amazon EMR 发行版 6.1.0 及更高版本中，Hudi 还与 [Trino（PrestoSQL）](https://trino.io/)集成。

在 Amazon EMR 5.28.0 版本及更高版本中，EMR 默认情况下会在安装 Spark、Hive、Presto 或 Flink 时安装 Hudi 组件。你可以使用 Spark 或 Hudi DeltaStreamer 实用程序来创建或更新 Hudi 数据集。您可以使用 Hive、Spark、Presto 或 Flink 以交互方式查询 Hudi 数据集，或使用*增量拉取*功能构建数据处理管道。增量拉取是指仅拉取两个操作之间更改的数据的功能。

这些功能使得 Hudi 适用于以下使用案例：
+ 处理来自传感器和其它需要特定数据插入和更新事件的物联网 (IoT) 设备的流数据。
+ 在用户可能会选择被忘记或修改其对数据使用方式的同意的应用程序中，遵守数据隐私法规。
+ 实施[更改数据捕获 (CDC) 系统](https://en.wikipedia.org/wiki/Change_data_capture)，该系统允许您随着时间的推移将更改应用于数据集。

下表列出了 Amazon EMR 7.x 系列的最新发行版附带的 Hudi 版本，以及 Amazon EMR 随 Hudi 一起安装的组件。

有关此版本中与 Hudi 一起安装的组件的版本，请参阅 [7.13.0 版本](emr-7130-release.md)的组件版本。


**emr-7.13.0 的 Hudi 版本信息**  

| Amazon EMR 发行版标签 | Hudi 版本 | 随 Hudi 安装的组件 | 
| --- | --- | --- | 
| emr-7.13.0 | Hudi 1.0.2-amzn-2 | Not available. | 

下表列出了 Amazon EMR 6.x 系列的最新发行版附带的 Hudi 版本，以及 Amazon EMR 随 Hudi 一起安装的组件。

有关此发行版中随 Hudi 安装的组件版本，请参阅[发行版 6.15.0 组件版本](emr-6150-release.md)。


**emr-6.15.0 的 Hudi 版本信息**  

| Amazon EMR 发行版标签 | Hudi 版本 | 随 Hudi 安装的组件 | 
| --- | --- | --- | 
| emr-6.15.0 | Hudi 0.14.0-amzn-0 | Not available. | 

**注意**  
Amazon EMR 发行版 6.8.0 随附 [Apache Hudi](https://hudi.apache.org/) 0.11.1；但是，Amazon EMR 6.8.0 集群也与 Hudi 0.12.0 中的开源 `hudi-spark3.3-bundle_2.12` 兼容。

下表列出了 Amazon EMR 5.x 系列的最新发行版附带的 Hudi 版本，以及 Amazon EMR 随 Hudi 一起安装的组件。

有关此发行版中随 Hudi 安装的组件版本，请参阅[发行版 5.36.2 组件版本](emr-5362-release.md)。


**emr-5.36.2 的 Hudi 版本信息**  

| Amazon EMR 发行版标签 | Hudi 版本 | 随 Hudi 安装的组件 | 
| --- | --- | --- | 
| emr-5.36.2 | Hudi 0.10.1-amzn-1 | Not available. | 

**Topics**
+ [Hudi 的工作原理](emr-hudi-how-it-works.md)
+ [在 Amazon EMR 上使用 Hudi 的注意事项和限制](emr-hudi-considerations.md)
+ [创建安装了 Hudi 的集群](emr-hudi-installation-and-configuration.md)
+ [使用 Hudi 数据集](emr-hudi-work-with-dataset.md)
+ [使用 Hudi CLI](emr-hudi-cli.md)
+ [Hudi 发行版历史记录](Hudi-release-history.md)