本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
为 Amazon EMR 5.19.0 启用经 EMRFS S3 优化的提交程序
如果您使用的是 Amazon EMR 5.19.0,则可以在从 Spark 中创建集群时手动将 spark.sql.parquet.fs.optimized.committer.optimization-enabled
属性设置为 true
(如果您使用的是 Amazon EMR)。
在创建集群时启用经 EMRFS S3 优化的提交程序
使用 spark-defaults
配置分类将 spark.sql.parquet.fs.optimized.committer.optimization-enabled
属性设置为 true
。 有关更多信息,请参阅 配置应用程序。
从 Spark 启用经 EMRFS S3 优化的提交程序
您可以通过在 中对其进行硬编码spark.sql.parquet.fs.optimized.committer.optimization-enabled
true
来将 设置为 SparkConf
,在 Spark shell 或 --conf
和 spark-submit
工具中将其作为spark-sql
参数传递,或在 中传递conf/spark-defaults.conf
。有关更多信息,请参阅 Apache Spark 文档中的 Spark 配置
以下示例显示了如何在运行 spark-sql 命令的同时启用提交程序。
spark-sql \ --conf spark.sql.parquet.fs.optimized.committer.optimization-enabled=true \ -e "INSERT OVERWRITE TABLE target_table SELECT * FROM source_table;"