步骤 5:分步测试集群
您尝试跟踪错误源时的一项有用的技术是重启集群并逐一向集群提交步骤。这可以让您检查每个步骤的结果然后才处理下一个步骤,让您有机会更正并重新运行失败的步骤。这也有一个优势,即您仅需上传一次输入数据。
分步测试集群
-
启动新集群,启用保持活动状态和终止保护两种功能。保持活动状态可在集群处理了所有待执行的步骤后保持集群运行。终止保护可以防止集群在出现错误时关闭。有关更多信息,请参阅将集群配置为在步骤执行后继续或终止和使用终止保护。
-
向集群提交一个步骤。有关更多信息,请参阅向集群提交工作。
-
当该步骤完成处理后,检查步骤日志文件中是否有错误。有关更多信息,请参阅步骤 4:检查日志文件。查找这些日志文件最快的方法是连接到主节点并查看那里的日志文件。直到该步骤运行一些时间结束或失败,步骤日志文件才会出现。
-
如果该步骤成功无误,运行下一个步骤。如果有错误,调查日志文件中的错误。如果是您的代码中的错误,更正并重新运行该步骤。继续操作直到所有步骤均运行无误。
-
当您完成了集群调试想终止集群时,您必须手动终止该集群。这么做是必要的,因为集群启动时启用了终止保护。有关更多信息,请参阅使用终止保护。