使用经 EMRFS S3 优化的提交协议 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用经 EMRFS S3 优化的提交协议

EMRFS S3 优化的提交协议是一种替代FileCommitProtocol实现,它经过优化,可在使用 EMRFS 时将带有 Spark 动态分区覆盖的文件写入 Amazon S3。该协议可在 Spark 动态分区覆盖任务提交阶段避免 Amazon S3 中的重命名操作,从而提高应用程序性能。

请注意,使用经 EMRFS S3 优化的提交程序 也可以通过避免重命名操作来提高性能。但是,它不适用于动态分区覆盖情况,同时提交协议的改进仅针对动态分区覆盖情况。

提交协议适用于 Amazon EMR 发行版 5.30.0 及更高版本,在 Amazon EMR 6.2.0 及更高版本中将默认启用。从发行版 5.31.0 开始,Amazon EMR 增加了并行性改进。该协议用于使用 Spark SQL 或数据集的 Spark 作业。 DataFrames在某些情况下,不使用提交协议。有关更多信息,请参阅 经 EMRFS S3 优化的提交协议的要求