系统回滚最佳实践 - Managed Service for Apache Flink
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon Managed Service for Apache Flink(Amazon MSF)之前称为 Amazon Kinesis Data Analytics for Apache Flink。

系统回滚最佳实践

借助 Amazon Managed Service for Apache Flink 中的自动系统回滚和操作可见性功能,您可以识别和解决应用程序存在的问题。

系统回滚

如果您的应用程序更新或扩展操作因客户错误(例如代码错误或权限问题)而失败,则在您已选择启用此功能时,Amazon Managed Service for Apache Flink 将自动尝试回滚到以前的运行版本。有关更多信息,请参阅 为 Managed Service for Apache Flink 应用程序启用系统回滚。如果此自动回滚失败,或者您尚未选择加入或选择退出,则您的应用程序将进入 READY 状态。若要更新应用程序,请完成以下步骤:

手动回滚

如果应用程序长时间处于停滞状态,或者应用程序已成功过渡到 Running 状态,但您看到下游问题(例如在已成功更新的 Flink 应用程序中处理错误),则可以使用 RollbackApplication API 手动回滚应用程序。

  1. 调用 RollbackApplication - 这将恢复到之前的运行版本并还原之前的状态。

  2. 使用 DescribeApplicationOperation API 监控回滚操作。

  3. 如果回滚失败,请使用之前的系统回滚步骤。

操作可见性

ListApplicationOperations API 显示您的应用程序上所有客户和系统操作的历史记录。

  1. 从列表中获取失败操作的 operationId

  2. 调查 DescribeApplicationOperation 并查看状态和 statusDescription

  3. 如果操作失败,描述将指出需要调查的潜在错误。

常见的错误代码错误:使用回滚功能恢复到上一个工作版本。解决错误并重试更新。

权限问题:使用 DescribeApplicationOperation 查看所需的权限。更新应用程序权限并重试。

Amazon Managed Service for Apache Flink 服务问题:查看 Amazon Health Dashboard 或开立支持案例。