使用适用于 Apache Spark 的 Amazon Redshift 集成启动 Spark 应用程序 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用适用于 Apache Spark 的 Amazon Redshift 集成启动 Spark 应用程序

对于 Amazon 6.4 到 6.9 EMR 版本,您必须使用--jars--packages选项来指定要使用以下哪个JAR文件。该--jars选项指定存储在本地HDFS、中或使用 HTTP /S 存储的依赖关系。要查看该--jars选项支持的其他文件位置,请参阅 Spark 文档中的高级依赖关系管理--packages 选项指定存储在公共 Maven 存储库中的依赖项。

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Amazon 6.10.0 及更高EMR版本不需要minimal-json.jar依赖关系,并且默认情况下会自动将其他依赖项安装到每个集群。以下示例显示了如何使用适用于 Apache Spark 的 Amazon Redshift 集成启动 Spark 应用程序。

Amazon EMR 6.10.0 +

以下示例说明如何使用亚马逊EMR版本 6.10 及更高版本的spark-redshift连接器启动 Spark 应用程序。

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

要在 Amazon 6.4 到 6.9 EMR 版本上启动带有spark-redshift连接器的 Spark 应用程序,必须使用--jars--packages选项,如以下示例所示。请注意,--jars选项中列出的路径是JAR文件的默认路径。

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py