使用 Amazon S3 提高 Spark 性能 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon S3 提高 Spark 性能

Amazon EMR 提供一些功能,有助于优化使用 Spark 查询、读取和写入保存在 Amazon S3 中的数据的性能。

S3 Select 可通过将处理“向下推送”到 Amazon S3 来提高某些应用程序中 CSV 和 JSON 文件的查询性能。

EMRFS S3 优化的提交者是该类的替代方案,该OutputCommitter类使用 EMRFS 的分段上传功能来提高使用 Spark SQL 和数据集将 Parquet 文件写入 Amazon S3 时的性能。 DataFrames