Amazon EMR
Amazon EMR 版本指南
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。请点击 Amazon AWS 入门,可查看中国地区的具体差异

使用 Spark 创建集群

以下过程在 EMR 控制台中使用 Quick Options 创建一个安装了 Spark 的集群。使用 Advanced Options 进一步自定义您的集群设置,并且使用步骤执行模式以编程方式安装应用程序,然后执行您作为步骤提交的自定义应用程序。利用这些高级选项之一,您可以选择使用 AWS Glue 作为您的 Spark SQL 元数据仓。参阅 使用 AWS Glue Data Catalog作为 Spark SQL 的元数据仓 了解更多信息。

启动安装了 Spark 的集群

  1. Open the Amazon EMR console at https://console.amazonaws.cn/elasticmapreduce/.

  2. 选择 Create cluster 以使用 Quick Create

  3. 对于 Software Configuration,选择 Amazon 发行版 emr-5.4.0 或更高版本。

  4. 对于 Select Applications,选择 All ApplicationsSpark

  5. 根据需要选择其他选项,然后选择 Create cluster

    注意

    要在创建集群时配置 Spark,请参阅配置 Spark

使用 AWS CLI 启动安装了 Spark 的集群

  • 使用下面的命令创建集群:

    aws emr create-cluster --name "Spark cluster" --release-label emr-5.4.0 --applications Name=Spark \ --ec2-attributes KeyName=myKey --instance-type m3.xlarge --instance-count 3 --use-default-roles

注意

包含了 Linux 行继续符 (\) 以提高可读性。可以在 Linux 命令中删除或使用它们。对于 Windows,请删除它们或将其替换为脱字号 (^)。

使用 SDK for Java 启动安装了 Spark 的集群

通过 RunJobFlowRequest 中使用的 SupportedProductConfig 指定 Spark 作为应用程序。

  • 下面的 Java 程序片段显示如何使用 Spark 创建集群:

    AmazonElasticMapReduceClient emr = new AmazonElasticMapReduceClient(credentials); Application sparkApp = new Application() .withName("Spark"); Applications myApps = new Applications(); myApps.add(sparkApp); RunJobFlowRequest request = new RunJobFlowRequest() .withName("Spark Cluster") .withApplications(myApps) .withReleaseLabel("emr-5.4.0") .withInstances(new JobFlowInstancesConfig() .withEc2KeyName("myKeyName") .withInstanceCount(1) .withKeepJobFlowAliveWhenNoSteps(true) .withMasterInstanceType("m3.xlarge") .withSlaveInstanceType("m3.xlarge") ); RunJobFlowResult result = emr.runJobFlow(request);