Amazon Managed Service for Apache Flink 之前称为 Amazon Kinesis Data Analytics for Apache Flink。
本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon Managed Service for Apache Flink 的故障恢复能力
Amazon 全球基础设施是围绕 Amazon 区域和可用区构建的。 Amazon 区域提供多个物理隔离和隔离的可用区,这些可用区通过低延迟、高吞吐量和高度冗余的网络相连。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础架构相比,可用区具有更高的可用性、容错性和可扩展性。
有关 Amazon 区域和可用区的更多信息,请参阅Amazon 全球基础设施
除了 Amazon 全球基础架构外,适用于 Apache Flink 的托管服务还提供多项功能,以帮助支持您的数据弹性和备份需求。
灾难恢复
Managed Service for Apache Flink在无服务器模式中运行,通过执行自动迁移来处理主机降级、可用区可用性以及其他与基础设施相关的问题。Managed Service for Apache Flink 通过多种冗余机制实现这一目标。每个Managed Service for Apache Flink应用程序在单租户 Apache Flink 集群中运行。Apache Flink 集群 JobMananger 在高可用性模式下运行,使用 Zookeeper 跨多个可用区。适用于 Apache Flink 的托管服务使用亚马逊部署 Apache Flink。EKS在亚马逊EKS中,跨可用 Amazon 区的每个区域使用多个 Kubernetes 容器。如果发生故障,Managed Service for Apache Flink先尝试使用应用程序的检查点(如果可用)在运行的 Apache Flink 集群中恢复应用程序。
Managed Service for Apache Flink 使用检查点和快照备份应用程序状态:
检查点是应用程序状态备份,Managed Service for Apache Flink定期自动创建这些备份并用于从故障中还原。
快照 是您手动创建的应用程序状态备份,可以从这些备份中进行还原。
有关检查点和快照的更多信息,请参阅在 Apache Flink 的托管服务中实现容错能力。
版本控制
存储的应用程序状态版本按如下方式进行版本控制:
该服务自动对检查点 进行版本控制。如果该服务使用检查点重新启动应用程序,则会使用最新的检查点。
使用操作的SnapshotName参数对@@ 保存点进行版本控制。CreateApplicationSnapshot
Managed Service for Apache Flink 可对存储在检查点和保存点中的数据进行加密。