Amazon Managed Service for Apache Flink(Amazon MSF)之前称为 Amazon Kinesis Data Analytics for Apache Flink。
系统回滚最佳实践
借助 Amazon Managed Service for Apache Flink 中的自动系统回滚和操作可见性功能,您可以识别和解决应用程序存在的问题。
系统回滚
如果您的应用程序更新或扩展操作因客户错误(例如代码错误或权限问题)而失败,则在您已选择启用此功能时,Amazon Managed Service for Apache Flink 将自动尝试回滚到以前的运行版本。有关更多信息,请参阅 为 Managed Service for Apache Flink 应用程序启用系统回滚。如果此自动回滚失败,或者您尚未选择加入或选择退出,则您的应用程序将进入 READY 状态。若要更新应用程序,请完成以下步骤:
手动回滚
如果应用程序长时间处于停滞状态,或者应用程序已成功过渡到 Running 状态,但您看到下游问题(例如在已成功更新的 Flink 应用程序中处理错误),则可以使用 RollbackApplication API 手动回滚应用程序。
-
调用
RollbackApplication- 这将恢复到之前的运行版本并还原之前的状态。 -
使用
DescribeApplicationOperationAPI 监控回滚操作。 -
如果回滚失败,请使用之前的系统回滚步骤。
操作可见性
ListApplicationOperations API 显示您的应用程序上所有客户和系统操作的历史记录。
-
从列表中获取失败操作的 operationId。
-
调查
DescribeApplicationOperation并查看状态和 statusDescription。 -
如果操作失败,描述将指出需要调查的潜在错误。
常见的错误代码错误:使用回滚功能恢复到上一个工作版本。解决错误并重试更新。
权限问题:使用 DescribeApplicationOperation 查看所需的权限。更新应用程序权限并重试。
Amazon Managed Service for Apache Flink 服务问题:查看 Amazon Health Dashboard 或开立支持案例。