Apache Spark
Apache Spark
Spark 内在支持使用 Scala、Python 和 Java 编写的应用程序。它还包含几个紧密集成的库,适用于 SQL(Spark SQL
您可以在 Amazon EMR 集群上与其他 Hadoop 应用程序一同安装 Spark,它还能借助 EMR 文件系统(EMRFS)直接访问 Amazon S3 中的数据。Hive 也与 Spark 集成,以便您使用 HiveContext 对象运行使用 Spark 的 Hive 脚本。Hive 上下文作为 sqlContext
包含在 Spark Shell 中。
有关使用 Spark 设置 EMR 集群和分析示例数据集的示例教程,请参阅 Amazon 新闻博客上的 教程:Amazon EMR 入门。
重要
Apache Spark 版本 2.3.1(从 Amazon EMR 发行版 5.16.0 开始提供)解决了 CVE-2018-8024
下表列出了 Amazon EMR 6.x 系列的最新发行版附带的 Spark 的版本,以及 Amazon EMR 随 Spark 一起安装的组件。
有关此发行版中随 Spark 安装的组件版本,请参阅 Release 6.14.0 Component Versions。
emr-6.14.0 的 Spark 版本信息 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 发行版标签 | Spark 版本 | 随 Spark 安装的组件 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-6.14.0 |
Spark 3.4.1 |
aws-sagemaker-spark-sdk, delta, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, iceberg, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
注意
Amazon EMR 发行版 6.8.0 随附 Apache Spar 3.3.0。此 Spark 发行版使用 Apache Log4j 2 和 log4j2.properties
文件,在 Spark 进程中配置 Log4j。如果您在集群中使用 Spark 或使用自定义配置参数创建 EMR 集群,并且希望升级到 Amazon EMR 发行版 6.8.0,则必须迁移到新的 spark-log4j2
配置分类和 Apache Log4j 2 的密钥格式。有关更多信息,请参阅从 Apache Log4j 1.x 迁移到 Log4j 2.x。
下表列出了 Amazon EMR 5.x 系列的最新发行版附带的 Spark 的版本,以及 Amazon EMR 随 Spark 一起安装的组件。
有关此发行版中随 Spark 安装的组件版本,请参阅 Release 6.14.0 Component Versions。
emr-5.36.1 的 Spark 版本信息 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon EMR 发行版标签 | Spark 版本 | 随 Spark 安装的组件 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-5.36.1 |
Spark 2.4.8 |
aws-sagemaker-spark-sdk, emrfs, emr-goodies, emr-ddb, emr-s3-select, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hudi, hudi-spark, livy-server, nginx, r, spark-client, spark-history-server, spark-on-yarn, spark-yarn-slave |
主题
- 使用 Spark 创建集群
- 使用 Amazon EMR 6.x 通过 Docker 运行 Spark 应用程序
- 使用 Amazon Glue 数据目录作为 Spark SQL 的元存储
- 配置 Spark
- 优化 Spark 性能
- Spark 结果片段缓存
- 使用 Nvidia Spark-RAPIDS Accelerator for Spark
- 访问 Spark Shell
- 将 Amazon SageMaker Spark 用于机器学习
- 编写 Spark 应用程序
- 使用 Amazon S3 提高 Spark 性能
- 添加 Spark 步骤
- 查看 Spark 应用程序历史记录
- 访问 Spark Web UI
- 将适用于 Apache Spark 的 Amazon Redshift 集成与 Amazon EMR 结合使用
- Spark 发行历史记录