步骤 1:收集有关此问题的数据 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

步骤 1:收集有关此问题的数据

对集群进行故障排查的第一步是收集有关出现问题的信息以及集群的当前状态和配置。此信息将在以下步骤中用于确认或排查问题的可能原因。

定义问题

首先要对这个问题作出明确的定义。问自己一些问题:

  • 我预计发生什么? 实际发生了什么?

  • 首次出现此问题是什么时候? 自那以后有多久发生一次?

  • 配置或运行集群的方式是否有任何变化?

集群详细信息

以下集群详细信息有助于追踪问题。有关如何收集此信息的更多信息,请参阅查看集群状态和详细信息

  • 集群的标识符。(也称为工作流标识符。)

  • 集群启动到的区域和可用区域。

  • 集群的状态,包括上次状态更改的详细信息。

  • 为主节点 (master node) 、核心节点和任务节点指定的 EC2 实例的类型和数量。