Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

提供了哪些可用于故障诊断的工具?

您可以使用多种工具收集有关集群的信息,以帮助确定出错的位置。一些工具需要您在启动集群时对它们进行初始化;其他工具则适用于每个集群。

显示集群详细信息的工具

您可以使用 AWS 管理控制台、AWS CLI 或 EMR API 检索有关 EMR 集群和作业执行的详细信息。有关使用 AWS 管理控制台和 AWS CLI 的更多信息,请参阅查看集群状态和详细信息

Amazon EMR 控制台详细信息窗格

在 Amazon EMR 控制台上的 Clusters (集群) 列表中,您可查看有关您账户和区域中每个集群的状态的高级信息。此列表将显示您过去两个月启动的所有集群,无论这些集群处于活动状态还是已终止。从 Clusters (集群) 列表中,您可选择集群的 Name (名称) 以查看集群详细信息。此信息已进行分类,可轻松导航。

集群详细信息页面中可用的 Application history (应用程序历史记录) 对故障排除特别有用。它提供了 YARN 应用程序的状态,对于部分应用程序 (如 Spark 应用程序),您可深入了解各种指标和方面 (如作业、阶段和执行程序)。有关更多信息,请参阅 查看应用程序历史记录。此功能只在 Amazon EMR 版本 5.8.0 及更高版本中提供。

Amazon EMR 命令行界面

您可以使用 --describe 参数从 CLI 中查找有关某一集群的详细信息。

Amazon EMR API

您可以使用 DescribeJobFlows 操作从 API 中查找有关某一集群的详细信息。

查看日志文件的工具

Amazon EMR 和 Hadoop 都会在集群运行时生成日志文件。根据在启动集群时指定的配置,您可以从多种不同工具中访问这些日志文件。有关更多信息,请参阅 配置集群日志记录和调试

主节点上的日志文件

每个集群都会将日志文件发布到主节点上的 /mnt/var/log/ 目录。仅在集群处于运行状态时才能获取这些日志文件。

存档到 Amazon S3 的日志文件

如果您启动集群并指定 Amazon S3 日志路径,则集群会每隔 5 分钟将存储在主节点上 /mnt/var/log/ 中的日志文件复制到 Amazon S3。这样可确保即使在终止集群后也可以访问日志文件。因为文件的存档间隔是 5 分钟,所以可能无法获取突然终止集群的最后几分钟的状况信息。

监控集群性能的工具

Amazon EMR 提供了多种用于监控集群性能的工具。

Hadoop Web 界面

每个集群都会将一组 Web 界面 (包含有关集群的信息) 发布到主节点上。您可以使用 SSH 隧道连接主节点上的这些网页,从而对它们进行访问。有关更多信息,请参阅查看 Amazon EMR 集群上托管的 Web 界面

CloudWatch 指标

每个集群都会向 CloudWatch 报告指标,CloudWatch 是一种跟踪指标的 Web 服务,您可以使用此服务对这些指标设置警报。有关更多信息,请参阅使用 CloudWatch 监控指标