Amazon Managed Service for Apache Flink 的故障恢复能力 - Managed Service for Apache Flink
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon Managed Service for Apache Flink 之前称为 Amazon Kinesis Data Analytics for Apache Flink。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Managed Service for Apache Flink 的故障恢复能力

Amazon全球基础设施围绕 Amazon 区域和可用区构建。Amazon区域提供多个在物理上独立且隔离的可用区,这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。

有关 Amazon 区域和可用区的更多信息,请参阅 Amazon全球基础设施

除了 Amazon 全球基础设施之外,Managed Service for Apache Flink还提供多种功能,以帮助支持您的数据故障恢复能力和备份需求。

灾难恢复

Managed Service for Apache Flink在无服务器模式中运行,通过执行自动迁移来处理主机降级、可用区可用性以及其他与基础设施相关的问题。Managed Service for Apache Flink 通过多种冗余机制实现这一目标。每个Managed Service for Apache Flink应用程序在单租户 Apache Flink 集群中运行。Apache Flink 集群 JobMananger 在高可用性模式下运行,使用 Zookeeper 跨多个可用区。Managed Service for Apache Flink 使用 Amazon EKS 部署 Apache Flink。对于跨可用区的每个 Amazon 区域,将在 Amazon EKS 中使用多个 Kubernetes Pod。如果发生故障,Managed Service for Apache Flink先尝试使用应用程序的检查点(如果可用)在运行的 Apache Flink 集群中恢复应用程序。

Managed Service for Apache Flink 使用检查点快照备份应用程序状态:

  • 检查点是应用程序状态备份,Managed Service for Apache Flink定期自动创建这些备份并用于从故障中还原。

  • 快照 是您手动创建的应用程序状态备份,可以从这些备份中进行还原。

有关检查点和快照的更多信息,请参阅容错能力

版本控制

存储的应用程序状态版本按如下方式进行版本控制:

  • 该服务自动对检查点 进行版本控制。如果该服务使用检查点重新启动应用程序,则会使用最新的检查点。

  • 使用操作的SnapshotName参数对@@ 保存点进行版本控制。CreateApplicationSnapshot

Managed Service for Apache Flink 可对存储在检查点和保存点中的数据进行加密。