Hudi(孵化版) - Amazon EMR
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

Hudi(孵化版)

Apache Hudi 是一种开源数据管理框架,用于通过提供记录级插入、更新、更新插入和删除功能来简化增量数据处理和数据管道开发工作。更新插入指的是将记录插入到现有数据集中(如果它们不存在)或对数据集进行更新(如果它们存在)的功能。通过高效地管理数据在 Amazon S3 的布局方式,Hudi 允许近乎实时地提取和更新数据。Hudi 仔细维护对数据集执行的操作的元数据,以帮助确保操作是原子级且是一致的。

Hudi 与 Apache SparkApache HivePresto 相集成。在 Amazon EMR 5.28.0 版本及更高版本中,Amazon EMR 默认情况下会在安装 Spark、Hive 或 Presto 时安装 Hudi 组件。您可以使用 Spark 或 Hudi DeltaStreamer 实用程序来创建或更新 Hudi 数据集。您可以使用 Hive、Spark 或 Presto 以交互方式查询 Hudi 数据集,或使用增量拉取功能构建数据处理管道。增量拉取是指仅拉取两个操作之间更改的数据的功能。

这些功能使得 Hudi 适用于以下用例:

  • 处理来自传感器和其他需要特定数据插入和更新事件的物联网 (IoT) 设备的流数据。

  • 在用户可能会选择被忘记或修改其对数据使用方式的同意的应用程序中,遵守数据隐私法规。

  • 实施更改数据捕获 (CDC) 系统,该系统允许您随着时间的推移将更改应用于数据集。

随 Amazon EMR 5.29.0 安装的 Hudi 版本是 0.5.0-incubating。