为 Amazon EMR 5.19.0 启用经 EMRFS S3 优化的提交程序 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为 Amazon EMR 5.19.0 启用经 EMRFS S3 优化的提交程序

如果您使用的是 Amazon EMR 5.19.0,则可以在从 Spark 中创建集群时手动将 spark.sql.parquet.fs.optimized.committer.optimization-enabled 属性设置为 true(如果您使用的是 Amazon EMR)。

在创建集群时启用经 EMRFS S3 优化的提交程序

使用 spark-defaults 配置分类将 spark.sql.parquet.fs.optimized.committer.optimization-enabled 属性设置为 true。有关更多信息,请参阅配置应用程序

从 Spark 启用经 EMRFS S3 优化的提交程序

您可以将 spark.sql.parquet.fs.optimized.committer.optimization-enabled 设置为 true,方法是在 SparkConf 中对其进行硬编码,并在 Spark Shell 或 spark-submitspark-sql 工具或 conf/spark-defaults.conf 中将其作为 --conf 参数进行传递。有关更多信息,请参阅 Apache Spark 文档中的 Spark 配置

以下示例显示了如何在运行 spark-sql 命令的同时启用提交程序。

spark-sql \ --conf spark.sql.parquet.fs.optimized.committer.optimization-enabled=true \ -e "INSERT OVERWRITE TABLE target_table SELECT * FROM source_table;"