Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

提供了哪些可用于故障诊断的工具?

您可以使用多种工具收集有关集群的信息,以帮助确定出错的位置。一些工具需要您在启动集群时对它们进行初始化;其他工具则适用于每个集群。

显示集群详细信息的工具

您可以使用 AWS Management Console、AWS CLI 或 EMR API 检索有关 EMR 集群和作业执行的详细信息。有关使用 AWS Management Console和 AWS CLI 的更多信息,请参阅 查看集群状态和详细信息

Amazon EMR 控制台详细信息窗格

在 Amazon EMR 控制台上的 Clusters 列表中,您可查看有关您的账户和区域中每个集群的状态的高级信息。此列表将显示您过去两个月启动的所有集群,无论这些集群处于活动状态还是已终止。从 Clusters 列表中,您可选择集群的 Name 以查看集群详细信息。此信息已进行分类,可轻松导航。

集群详细信息页面中可用的 Application history 对故障排除特别有用。它提供了 YARN 应用程序的状态,对于部分应用程序 (如 Spark 应用程序),您可深入了解各种指标和方面 (如作业、阶段和执行程序)。有关更多信息,请参阅 查看应用程序历史记录。此功能只在 Amazon EMR 版本 5.8.0 及更高版本中提供。

Amazon EMR 命令行界面

您可以使用 --describe 参数从 CLI 中查找有关某一集群的详细信息。

Amazon EMR API

您可以使用 DescribeJobFlows 操作从 API 中查找有关某一集群的详细信息。

查看日志文件的工具

Amazon EMR 和 Hadoop 都会在集群运行时生成日志文件。根据在启动集群时指定的配置,您可以从多种不同工具中访问这些日志文件。有关更多信息,请参阅 配置集群日志记录和调试

主节点上的日志文件

每个集群都会将日志文件发布到主节点上的 /mnt/var/log/ 目录。仅在集群处于运行状态时才能获取这些日志文件。

存档到 Amazon S3 的日志文件

如果您启动集群并指定 Amazon S3 日志路径,则集群会每隔 5 分钟将存储在主节点上 /mnt/var/log/ 中的日志文件复制到 Amazon S3。这样可确保即使在终止集群后也可以访问日志文件。因为文件的存档间隔是 5 分钟,所以可能无法获取突然终止集群的最后几分钟的状况信息。

监控集群性能的工具

Amazon EMR 提供了多种用于监控集群性能的工具。

Hadoop Web 界面

每个集群都会将一组 Web 界面 (包含有关集群的信息) 发布到主节点上。您可以使用 SSH 隧道连接主节点上的这些网页,从而对它们进行访问。有关更多信息,请参阅 查看 Amazon EMR 集群上托管的 Web 界面

CloudWatch 指标

每个集群都会向 CloudWatch 报告指标,CloudWatch 是一种跟踪指标的 Web 服务,您可以使用此服务对这些指标设置警报。有关更多信息,请参阅 使用 CloudWatch 监控指标