通过 Amazon S3 提高火花性能 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

通过 Amazon S3 提高火花性能

Amazon EMR 提供了一些功能,有助于在使用 Spark 查询、读取和写入保存在 Amazon S3 中的数据时优化性能。

S3 Select可通过将处理 “向下推送” 到 Amazon S3 来提高对某些应用程序中的 CSV 和 JSON 文件的查询性能。

经 EMRFS S3 优化的提交程序是OutputCommitter类,该类使用 EMRFS 的分段上传功能,在使用 Spark SQL、DataFrame 和 Dataset 向 Amazon S3 写入 Parquet 文件时提高性能。