系统回滚最佳实践 - Managed Service for Apache Flink
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon Managed Service for Apache Flink 之前称为 Amazon Kinesis Data Analytics for Apache Flink。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

系统回滚最佳实践

借助适用于 Apache Flink 的 Amazon 托管服务中的自动系统回滚和操作可视性功能,您可以识别和解决应用程序存在的问题。

系统回滚

如果您的应用程序更新或扩展操作由于客户错误(例如代码错误或权限问题)而失败,如果您选择使用此功能,则适用于 Apache Flink 的 Amazon 托管服务会自动尝试回滚到之前运行的版本。有关更多信息,请参阅 为适用于 Apache Flink 的托管服务应用程序启用系统回滚。如果此自动回滚失败,或者您尚未选择加入或选择退出,则您的应用程序将进入该状态。READY要更新您的应用程序,请完成以下步骤:

手动回滚

如果应用程序没有进展并且长时间处于暂时状态,或者应用程序成功过渡到Running,但您在成功更新的 Flink 应用程序中看到处理错误等下游问题,则可以使用 API 手动将其回滚。RollbackApplication

  1. 调用 RollbackApplication-这将恢复到之前的运行版本并恢复之前的状态。

  2. 使用 DescribeApplicationOperation API 监控回滚操作。

  3. 如果回滚失败,请使用之前的系统回滚步骤。

运营可见性

ListApplicationOperationsAPI 显示您的应用程序上所有客户和系统操作的历史记录。

  1. 从列表中获取失败操作的 Operation ID

  2. 致电DescribeApplicationOperation并查看状态和状态描述

  3. 如果操作失败,描述将指出需要调查的潜在错误。

常见的错误代码错误:使用回滚功能恢复到上一个工作版本。解决错误并重试更新。

权限问题:DescribeApplicationOperation使用查看所需的权限。更新应用程序权限并重试。

适用于 Apache Flink 的亚马逊托管服务服务问题:查看 Amazon Health Dashboard 或提交支持案例。