Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

步骤 1:收集有关此问题的数据

集群问题排查的第一步是收集以下方面的信息:出错的对象以及集群的当前状态和配置。在接下来的步骤中将使用这些信息来确认或排除可能导致问题的原因。

定义问题

开始时,首先要对问题进行明确的定义。问自己以下几个问题:

  • 我原本期待的结果是什么?而实际结果是什么?

  • 第一次出现此问题是什么时候?从那时起,此问题发生的频率如何?

  • 我配置或运行集群的方式是否发生了任何改变?

集群详细信息

以下集群详细信息有助于追踪问题。要详细了解如何收集这些信息,请参阅 查看集群状态和详细信息

  • 集群的标识符。(也称为任务流程标识符。)

  • 启动集群的区域和可用区。

  • 集群的状态,包括最后一次状态更改的详细信息。

  • 被指定用作主节点、核心节点和任务节点的 EC2 实例类型和数量。