为 Amazon EMR 5.19.0 启用经 EMRFS S3 优化的提交程序 - Amazon EMR
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 Amazon EMR 5.19.0 启用经 EMRFS S3 优化的提交程序

如果您使用的是 Amazon EMR 5.19.0,则可以在从 Spark 中创建集群时手动将 spark.sql.parquet.fs.optimized.committer.optimization-enabled 属性设置为 true(如果您使用的是 Amazon EMR)。

在创建集群时启用经 EMRFS S3 优化的提交程序

使用 spark-defaults 配置分类将 spark.sql.parquet.fs.optimized.committer.optimization-enabled 属性设置为 true。 有关更多信息,请参阅 配置应用程序

从 Spark 启用经 EMRFS S3 优化的提交程序

您可以通过在 中对其进行硬编码spark.sql.parquet.fs.optimized.committer.optimization-enabledtrue来将 设置为 SparkConf,在 Spark shell 或 --confspark-submit 工具中将其作为spark-sql参数传递,或在 中传递conf/spark-defaults.conf。有关更多信息,请参阅 Apache Spark 文档中的 Spark 配置

以下示例显示了如何在运行 spark-sql 命令的同时启用提交程序。

spark-sql \ --conf spark.sql.parquet.fs.optimized.committer.optimization-enabled=true \ -e "INSERT OVERWRITE TABLE target_table SELECT * FROM source_table;"