Apache Spark - Amazon Kinesis Data Streams
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Apache Spark

Apache Spark 是用于大规模数据处理的统一分析引擎。其提供了 Java、Scala、Python 和 R 这几种语言的高级别 API,以及支持常规执行图的优化引擎。您可以使用 Apache Spark 来构建流处理应用程序,这些应用程序使用您的 Kinesis 数据流中的数据。

要使用 Apache Spark 结构化流来使用 Kinesis 数据流,请使用 Amazon Kinesis Data Streams 连接器。此连接器支持使用增强型扇出功能,可为您的应用程序提供每分片每秒高达 2 MB 数据的专用读取吞吐量。有关更多信息,请参阅开发具有专用吞吐量的自定义使用者(增强扇出)。

要使用 Spark Streaming 使用 Kinesis 数据流,请参阅 Spark Streaming + Kinesis 集成。