Hudi 配置最佳实践 - Managed Service for Apache Flink
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon Managed Service for Apache Flink 之前称为 Amazon Kinesis Data Analytics for Apache Flink。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Hudi 配置最佳实践

要在适用于 Apache Flink 的托管服务上运行 Hudi 连接器,我们建议进行以下配置更改。

禁用了 hoodie.embed.timeline.server

Flink 上的 Hudi 连接器在 Flink 作业管理器 (JM) 上设置了一个嵌入式时间轴 (TM) 服务器,用于缓存元数据,从而在作业并行度较高时提高性能。我们建议您在适用于 Apache Flink 的托管服务上禁用此嵌入式服务器,因为我们禁用 JM 和 TM 之间的非 Flink 通信。

如果启用此服务器,Hudi 写入操作将首先尝试连接到 JM 上的嵌入式服务器,然后回退到从 Amazon S3 读取元数据。这意味着 Hudi 会导致连接超时,从而延迟 Hudi 的写入并对 Apache Flink 的托管服务造成性能影响。