使用经 EMRFS S3 优化的提交程序 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用经 EMRFS S3 优化的提交程序

EMRFS S3 优化的提交器是一种替代OutputCommitter实现,它针对在使用 EMRFS 时将文件写入 Amazon S3 进行了优化。通过避免在任务处理和任务提交阶段列出并重命名在 Amazon S3 中完成的操作来提高应用程序性能。提交程序适用于 Amazon EMR 发行版 5.19.0 及更高版本,在 Amazon EMR 5.20.0 及更高版本中将默认启用。提交者用于使用 Spark SQL 或数据集的 Spark 作业。 DataFrames从 Amazon EMR 6.4.0 开始,此提交程序可用于所有常见格式,包括 parquet、ORC 和基于文本的格式(包括 CSV 和 JSON)。对于 Amazon EMR 6.4.0 之前的发行版,仅支持 Parquet 格式。在某些情况下,不使用提交程序。有关更多信息,请参阅 经 EMRFS S3 优化的提交程序的要求