Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

使用经 EMRFS S3 优化的提交程序

经 EMRFS S3 优化的提交程序是 OutputCommitter 的一种实现替代品,该程序已针对在使用 EMRFS 时向 Amazon S3 写入文件进行了优化。提交程序适用于 Amazon EMR 版本 5.19.0 及更高版本,默认情况下将启用 Amazon EMR 5.20.0 及更高版本。提交程序用于 Spark 作业,该作业使用 Spark SQL、DataFrame 或 Dataset 写入 Parquet 文件。在某些情况下,不使用提交程序。有关更多信息,请参阅经 EMRFS S3 优化的提交程序的要求

经 EMRFS S3 优化的提交程序具有以下优势:

  • 通过避免在作业和任务提交阶段列出并重命名在 Amazon S3 中完成的操作来提高应用程序性能。

  • 避免可能在作业和任务提交阶段发生的 Amazon S3 最终一致性相关问题,并帮助在任务失败情况下提高作业正确性。