使用 EMRFS S3 优化的提交协议 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 EMRFS S3 优化的提交协议

EMRFSS3 优化的提交协议是一种替代FileCommitProtocol实现,它针对在使用时将 Spark 动态分区覆盖的文件写入 Amazon S3 进行了优化。EMRFS该协议可在 Spark 动态分区覆盖任务提交阶段避免 Amazon S3 中的重命名操作,从而提高应用程序性能。

请注意,使用 EMRFS S3 优化的提交器 也可以通过避免重命名操作来提高性能。但是,它不适用于动态分区覆盖情况,同时提交协议的改进仅针对动态分区覆盖情况。

提交协议在 Amazon EMR 版本 5.30.0 及更高版本以及 6.2.0 及更高版本中可用,并且默认处于启用状态。从5.31.0版本开始,亚马逊EMR增加了并行度改进。该协议用于使用 Spark SQL DataFrames、或数据集的 Spark 作业。在某些情况下,不使用提交协议。有关更多信息,请参阅 对 EMRFS S3 优化的提交协议的要求