Apache Spark - Amazon EMR
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Apache Spark

Apache Spark是一个分布式处理框架和编程模型,可帮助您使用 Amazon EMR 集群进行机器学习、流处理或图形分析。Spark 与 Apache Hadoop 类似,也是一款常用于大数据工作负载的开源、分布式处理系统。但 Spark 与 Hadoop MapReduce 有一些明显的不同。Spark 拥有经过优化的有向无环图 (DAG) 执行引擎并会积极地在内存中缓存数据,这可提高性能,尤其是对于某些算法和交互式查询。

Spark 内在支持使用 Scala、Python 和 Java 编写的应用程序。它还包含几个紧密集成的库,适用于 SQL (Spark SQL)、机器学习 (MLlib)、流处理 (Spark Streaming) 和图形处理 (GraphX)。这些工具可让您更轻松地在各种使用案例中充分发挥 Spark 框架的优势。

您可以在 EMR 集群上与其他 Hadoop 应用程序一同安装 Spark,它还能借助 EMR 文件系统 (EMRFS) 直接访问 Amazon S3 中的数据。Hive 也与 Spark 集成,以便您使用 HiveContext 对象运行使用 Spark 的 Hive 脚本。Hive 上下文作为 sqlContext 包含在 Spark 外壳中。

有关使用 Spark 设置 EMR 集群和分析示例数据集的示例教程,请参阅新增-亚马逊 EMR 上的阿帕奇火花在 AWS 新闻博客上。

要查看在 Amazon EMR 上使用 Spark 的机器学习示例,请参阅利用亚马逊 EMR 上的 Spark 实现大规模 Machine LearningAWS 大数据博客上。

重要

Apache 火花版本 2.3.1,从亚马逊 EMR 发行版 5.16.0 开始提供,地址CVO8-8024CL8-1334。我们建议您将早期版本的 Spark 迁移到 Spark 版本 2.3.1 或更高版本。

下表列出了 Amazon EMR 6.x 系列的最新发布版本附带的 Spark 版本,以及 Amazon EMR 随一起安装的组件。

有关随此发布版本中的 Spark 一起安装的组件的版本,请参阅发行版 6.2.0 组件版本

emr-6.2.0 的 Spark 版本信息
Amazon EMR 版本指南 Spark 版本 随安装的组件

emr-6.2.0

Spark 3.0.1

AWS-sagemak-SDK, emrfs, emr-DDB, emr-DDB, emr-s3 选择, hadoop-客户端, HDFS-数据, Hadoop-HDFS-库, Hadoop-HDFS-库, hadoop-HDF-纳梅码, hadoop-Hoop-服务器, n 节点管理器, hadoop-纱线-资源管理器, hadoop-纱线-时间线-服务器, hudi, Hudi-火花, Live 服务器, nginx, r,火花客户端, 火花历史服务器, 纱线上的火花, 火花纱-从

下表列出了 Amazon EMR 5.x 系列的最新发布版本附带的 Spark 版本,以及 Amazon EMR 随一起安装的组件。

有关随此发布版本中的 Spark 一起安装的组件的版本,请参阅发行版 5.33.0 组件版本

emr-5.33.0 的 Spark 版本信息
Amazon EMR 版本指南 Spark 版本 随安装的组件

emr-5.33.0

Spark 2.4.7

AWS-sagemak-SDK, emrfs, emr-DDB, emr-DDB, emr-s3 选择, hadoop-客户端, HDFS-数据, Hadoop-HDFS-库, Hadoop-HDFS-库, hadoop-HDF-纳梅码, hadoop-Hoop-服务器, n 节点管理器, hadoop-纱线-资源管理器, hadoop-纱线-时间线-服务器, hudi, Hudi-火花, Live 服务器, nginx, r,火花客户端, 火花历史服务器, 纱线上的火花, 火花纱-从