Apache Spark
Apache Spark
Spark 内在支持使用 Scala、Python 和 Java 编写的应用程序。它还包含几个紧密集成的库,适用于 SQL (Spark
您可以在 Amazon EMR 集群上与其他 Hadoop 应用程序一同安装 Spark,它还能借助 Amazon EMR 文件系统(EMRFS)直接访问 Amazon S3 中的数据。Hive 也与 Spark 集成,以便您使用 HiveContext 对象运行使用 Spark 的 Hive 脚本。Hive 上下文作为 sqlContext 包含在 Spark Shell 中。
有关使用 Spark 设置 EMR 集群和分析示例数据集的示例教程,请参阅 Amazon 新闻博客上的教程:Amazon EMR 入门。
重要
Apache Spark 版本 2.3.1(从 Amazon EMR 发行版 5.16.0 开始提供)解决了 CVE-2018-8024
下表列出了 Amazon EMR 7.x 系列的最新发行版附带的 Spark 的版本,以及 Amazon EMR 随 Spark 一起安装的组件。
有关此发行版中随 Spark 安装的组件版本,请参阅发行版 7.10.0 组件版本。
| Amazon EMR 发行版标签 | Spark 版本 | 随 Spark 安装的组件 |
|---|---|---|
emr-7.10.0 |
Spark 3.5.5-amzn-1 |
delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
下表列出了 Amazon EMR 6.x 系列的最新发行版附带的 Spark 的版本,以及 Amazon EMR 随 Spark 一起安装的组件。
有关此发行版中随 Spark 安装的组件版本,请参阅发行版 6.15.0 组件版本。
| Amazon EMR 发行版标签 | Spark 版本 | 随 Spark 安装的组件 |
|---|---|---|
emr-6.15.0 |
Spark 3.4.1-amzn-2 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
注意
Amazon EMR 发行版 6.8.0 随附 Apache Spar 3.3.0。此 Spark 发行版使用 Apache Log4j 2 和 log4j2.properties 文件,在 Spark 进程中配置 Log4j。如果您在集群中使用 Spark 或使用自定义配置参数创建 EMR 集群,并且希望升级到 Amazon EMR 发行版 6.8.0,则必须迁移到新的 spark-log4j2 配置分类和 Apache Log4j 2 的密钥格式。有关更多信息,请参阅 从 Apache Log4j 1.x 迁移到 Log4j 2.x。
下表列出了 Amazon EMR 5.x 系列的最新发行版附带的 Spark 的版本,以及 Amazon EMR 随 Spark 一起安装的组件。
有关此发行版中随 Spark 安装的组件版本,请参阅发行版 5.36.2 组件版本。
| Amazon EMR 发行版标签 | Spark 版本 | 随 Spark 安装的组件 |
|---|---|---|
emr-5.36.2 |
Spark 2.4.8-amzn-2 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |