Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

使用 Amazon S3 提高 Spark 性能

Amazon EMR 提供了一些功能,有助于在使用 Spark 查询、读取和写入保存在 Amazon S3 中的数据时优化性能。

S3 Select 可通过将处理“向下推送”到 Amazon S3 来提高对某些应用程序中的 CSV 和 JSON 文件的查询性能。

经 EMRFS S3 优化的提交程序是 OutputCommitter 类的替代品,该程序使用 EMRFS 的分段上传功能,在使用 Spark SQL、DataFrame 和 Dataset 向 Amazon S3 写入 Parquet 文件时提高性能。