Amazon EMR
Amazon EMR 版本指南
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。请点击 Amazon AWS 入门,可查看中国地区的具体差异

Apache Spark

本文档适用于 Amazon EMR 的 版本 4.x 和 5.x。对于有关 Amazon EMR AMI 版本 2.x 和 3.x 的信息,请参阅 Amazon EMR 开发人员指南 (PDF)

Apache Spark 一个集群框架和编程模型,可帮助您使用 Amazon EMR 集群进行机器学习、流处理或图形分析。Spark 与 Apache Hadoop 类似,也是一款常用于大数据工作负载的开源、分布式处理系统。但 Spark 与 Hadoop MapReduce 有一些明显的不同。Spark 拥有经过优化的有向无环图 (DAG) 执行引擎并会积极地在内存中缓存数据,这可提高性能,尤其是对于某些算法和交互式查询。

Spark 内在支持用 Scala、Python 和 Java 编写的应用程序,包含几个用于 SQL (Spark SQL)、机器学习 (MLlib)、流式处理 (Spark Streaming) 和图形处理 (GraphX) 的紧密集成库。这些工具可让您更轻松地在各种使用案例中充分发挥 Spark 框架的优势。

Spark 可与 Amazon EMR 中可用的其他 Hadoop 应用程序一同安装,而且,它还能借助 EMR 文件系统 (EMRFS) 直接访问 Amazon S3 中的数据。此外,Hive 也与 Spark 集成。因此,您可以通过 HiveContext 对象运行使用 Spark 的 Hive 脚本。Hive 上下文作为 sqlContext 包含在 Spark 外壳中。

要查看在 Amazon EMR 上使用 Spark 的端到端示例,请参阅 AWS 官方博客上的文章全新推出 - Amazon EMR 上的 Apache Spark

要查看在 Amazon EMR 上使用 Spark 的机器学习示例,请参阅 AWS 大数据博客上的文章通过 Amazon EMR 上的 Spark 实现大规模机器学习

适用于此版本 Amazon EMR 的 Spark 版本信息

应用程序 Amazon EMR 发行版标签 随此应用程序安装的组件

Spark 2.1.0

emr-5.4.0

emrfs、emr-goodies、hadoop-client、hadoop-hdfs-datanode、hadoop-hdfs-library、hadoop-hdfs-namenode、hadoop-httpfs-server、hadoop-kms-server、hadoop-yarn-nodemanager、hadoop-yarn-resourcemanager、spark-client、spark-history-server、spark-on-yarn、spark-yarn-slave

主题