Kinesis Data Analytics for Apache Flink - Amazon Kinesis Data Analytics
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Kinesis Data Analytics for Apache Flink

Kinesis Data Analytics for Apache Flink 是一项完全托管式服务,可让您使用 Apache Flink 应用程序处理流式传输数据。

编程你的 Apache Flink 应用程序

Apache Flink 应用程序是使用 Apache Flink 框架创建的 Java 或 Scala 应用程序。你在本地编写和构建 Apache Flink 应用程序。

应用程序主要使用 DataStream API表 API。其他 Apache Flink API 也可供你使用,但它们在构建流媒体应用程序中不太常用。

这两个 API 的特点如下:

DataStream API

Apache Flink DataStream API 编程模型基于两个组件:

  • 数据流:连续数据记录流的结构化表示形式。

  • 转换操作符:将一个或多个数据流作为输入,并生成一个或多个数据流以作为输出。

使用 DataStream API 创建的应用程序执行以下操作:

  • 从数据源(例如 Kinesis 直播或亚马逊 MSK 主题)读取数据。

  • 对数据进行转换,例如过滤、聚合或丰富。

  • 将转换后的数据写入数据接收器。

使用 DataStream API 的应用程序可以用 Java 或 Scala 编写,并且可以从 Kinesis 数据流、亚马逊 MSK 主题或自定义源中读取。

您的应用程序使用连接器处理数据。Apache Flink 使用以下连接器:

  • 来源:用于读取外部数据的连接器。

  • Sin@@ k:用于写入外部位置的连接器。

  • 操作员:用于处理应用程序内数据的连接器。

典型的应用程序包含至少一个具有源的数据流、一个具有一个或多个操作符的数据流以及至少一个数据接收器。

有关使用 DataStream API 的更多信息,请参阅DataStream API

表 API

Apache Flink API 编程模型基于以下组件:

  • 表环境:基础数据的接口,用于创建和托管一个或多个表。

  • 表:提供对 SQL 表或视图的访问权限的对象。

  • 表来源:用于从外部来源读取数据,例如 Amazon MSK 主题。

  • 表函数:用于转换数据的 SQL 查询或 API 调用。

  • T@@ able Sink:用于将数据写入外部位置,如 Amazon S3 存储桶。

使用 Table API 创建的应用程序执行以下操作:

  • TableEnvironment通过连接到 a 来创建Table Source

  • TableEnvironment使用 SQL 查询或表 API 函数在中创建表。

  • 使用表 API 或 SQL 对表运行查询

  • 使用表函数或 SQL 查询对查询结果应用转换。

  • 将查询或函数结果写入Table Sink

使用 Table API 的应用程序可以用 Java 或 Scala 编写,并且可以使用 API 调用或 SQL 查询查询数据。

有关使用 Table API 的更多信息,请参阅表 API

创建您的 Kinesis Data Analytics

Kinesis Data Analytics 应用程序是由 Kinesis Data Analytics 服务托管的Amazon资源。您的 Kinesis Data Analytics 应用程序托管您的 Apache Flink 应用程序,并为其提供以下设置:

您可以使用控制台或创建 Kinesis Data Analytics 应用程序Amazon CLI。要开始创建 Kinesis Data Analytics 应用程序,请参阅入门指南 (DataStream API)