为 Amazon EMR 5.19.0 启用经 EMRFS S3 优化的提交程序 - Amazon EMR
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 Amazon EMR 5.19.0 启用经 EMRFS S3 优化的提交程序

如果您使用的是 Amazon EMR 5.19.0,则可以在从 Spark 中创建集群时手动将 spark.sql.parquet.fs.optimized.committer.optimization-enabled 属性设置为 true(如果您使用的是 Amazon EMR)。

在创建集群时启用经 EMRFS S3 优化的提交程序

使用 spark-defaults 配置分类将 spark.sql.parquet.fs.optimized.committer.optimization-enabled 属性设置为 true。有关更多信息,请参阅 配置应用程序

从 Spark 启用经 EMRFS S3 优化的提交程序

您可以设置 spark.sql.parquet.fs.optimized.committer.optimization-enabledtrue 将其硬编码为 SparkConf,将其作为 --conf Sparkshell中的参数或 spark-submitspark-sql 工具,或 conf/spark-defaults.conf。有关更多信息,请参阅 火花配置 在ApacheSpark文档中。

以下示例显示了如何在运行 spark-sql 命令的同时启用提交程序。

spark-sql \ --conf spark.sql.parquet.fs.optimized.committer.optimization-enabled=true \ -e "INSERT OVERWRITE TABLE target_table SELECT * FROM source_table;"