使用经 EMRFS S3 优化的提交程序 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

使用经 EMRFS S3 优化的提交程序

经 EMRFS S3 优化的提交程序是 OutputCommitter 的一种实施替代项,该程序已针对在使用 EMRFS 时向 Amazon S3 写入文件进行了优化。提交程序适用于 Amazon EMR 版本 5.19.0 及更高版本,在 Amazon EMR 5.20.0 及更高版本中将默认启用。提交程序用于 Spark 任务,该任务使用 Spark SQL、DataFrame 或 Dataset。从 Amazon EMR 6.4.0 开始,此提交程序可用于所有常见格式,包括 parquet、ORC 和基于文本的格式(包括 CSV 和 JSON)。对于 Amazon EMR 6.4.0 之前的版本,仅支持 Parquet 格式。在某些情况下,不使用提交程序。有关更多信息,请参阅经 EMRFS S3 优化的提交程序的要求

经 EMRFS S3 优化的提交程序具有以下优势:

  • 通过避免在任务处理和任务提交阶段列出并重命名在 Amazon S3 中完成的操作来提高应用程序性能。

  • 避免可能在任务处理和任务提交阶段发生的 Amazon S3 最终一致性相关问题,并帮助在任务失败情况下提高任务正确性。