Amazon EMR 提供一些功能,有助于优化使用 Spark 查询、读取和写入保存在 Amazon S3 中的数据的性能。
S3 Select 可通过将处理“向下推送”到 Amazon S3 来提高某些应用程序中 CSV 和 JSON 文件的查询性能。
经 EMRFS S3 优化的提交程序是 OutputCommitter 类的替代项,该程序使用 EMRFS 的分段上传功能,提高使用 Spark、DataFrame 和 Datasets 向 Amazon S3 写入 Parquet 文件的性能。
将 S3 Select 与 Spark 结合使用以提高查询性能
EMR Spark MagicCommitProtocol
使用经 EMRFS S3 优化的提交程序
使用经 EMRFS S3 优化的提交协议
使用 EMRFS 重试 Amazon S3 请求
Javascript 在您的浏览器中被禁用或不可用。
要使用 Amazon Web Services 文档,必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。