

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 使用 Amazon S3 提高 Spark 性能
<a name="emr-spark-s3-performance"></a>

Amazon EMR 提供一些功能，有助于优化使用 Spark 查询、读取和写入保存在 Amazon S3 中的数据的性能。

[S3 Select](https://www.amazonaws.cn/blogs/aws/s3-glacier-select/) 可通过将处理“向下推送”到 Amazon S3 来提高某些应用程序中 CSV 和 JSON 文件的查询性能。

EMRFS S3 优化的提交者是该类的替代方案，该[OutputCommitter](https://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapreduce/OutputCommitter.html)类使用 EMRFS 的分段上传功能来提高使用 Spark、和数据集将 Parquet 文件写入 Amazon S3 时的性能。 DataFrames

**Topics**
+ [将 S3 Select 与 Spark 结合使用以提高查询性能](emr-spark-s3select.md)
+ [EMR Spark MagicCommitProtocol](emr-spark-magic-commit-protocol.md)
+ [使用经 EMRFS S3 优化的提交程序](emr-spark-s3-optimized-committer.md)
+ [使用经 EMRFS S3 优化的提交协议](emr-spark-s3-optimized-commit-protocol.md)
+ [使用 EMRFS 重试 Amazon S3 请求](emr-spark-emrfs-retry.md)