查看持久性应用程序用户界面 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

查看持久性应用程序用户界面

从 Amazon EMR 版本 5.25.0 开始,您可以使用集群的 Summary (摘要) 页面或控制台中的 Application user interfaces (应用程序用户界面) 选项卡连接到在集群外托管的持久性 Spark 历史记录服务器应用程序的详细信息。从 Amazon EMR 版本 5.30.1 开始,提供了 Tez UI 和 YARN 时间线服务器持久性应用程序界面。对持久性应用程序历史记录的一键式链接访问提供了以下好处:

  • 您可以快速分析活动的作业和作业历史记录并进行故障排除,而无需通过 SSH 连接来设置 Web 代理。

  • 您可以访问处于活动状态和终止状态的集群的应用程序历史记录和相关日志文件。日志在应用程序结束后的 30 天内均可用。

在 Amazon EMR 5.30.1 或 6.x 控制台中您集群的 Application user interfaces (应用程序用户界面) 选项卡或集群 Summary (摘要) 页面上,选择 YARN timeline server (YARN 时间线服务器)Tez UISpark history server (Spark 历史记录服务器) 链接。

应用程序 UI 将在新的浏览器选项卡中打开。有关更多信息,请参阅监控和检测

您可以通过 Spark 历史记录服务器、YARN 时间线服务器和 Tez UI 上的链接来查看 YARN 容器日志。

注意

要从 Spark 历史记录服务器、YARN 时间线服务器和 Tez UI 访问 YARN 容器日志,您必须为集群启用 Amazon S3 日志记录。如果未启用日志记录,则指向 YARN 容器日志的链接将不起作用。

日志收集

要启用一键式访问持久性应用程序用户界面,Amazon EMR 需要收集两种类型的日志:

  • 应用程序事件日志 会收集到 EMR 系统存储桶中。通过使用 Amazon S3 托管密钥的服务器端加密 (SSE-S3) 对事件日志进行静态加密。如果您对集群使用私有子网,请确保在私有子网的 Amazon S3 策略的资源列表中包含 “arn:aws:s3:::prod.MyRegion.appinfo.src/*”。有关更多信息,请参阅私有子网的最小 Amazon S3 策略

  • YARN 容量日志收集到您拥有的 Amazon S3 存储桶中。您必须为集群启用日志记录才能访问 YARN 容器日志。有关更多信息,请参阅配置集群日志记录和调试

如果您出于隐私原因需要禁用此功能,则可在创建集群时使用引导脚本来停止守护程序,如以下示例所示。

aws emr create-cluster --name "Stop Application UI Support" --release-label emr-5.33.0 \ --applications Name=Hadoop Name=Spark --ec2-attributes KeyName=<myEMRKeyPairName> \ --instance-groups InstanceGroupType=MASTER,InstanceCount=1,InstanceType=m3.xlarge InstanceGroupType=CORE,InstanceCount=1,InstanceType=m3.xlarge InstanceGroupType=TASK,InstanceCount=1,InstanceType=m3.xlarge \ --use-default-roles --bootstrap-actions Path=s3://region.elasticmapreduce/bootstrap-actions/run-if,Args=["instance.isMaster=true","echo Stop Application UI | sudo tee /etc/apppusher/run-apppusher; sudo systemctl stop apppusher || exit 0"]

运行此引导启动脚本后,Amazon EMR 不会将任何 Spark 历史记录服务器或 YARN 时间线服务器事件日志收集到 EMR 系统存储桶中。Application user interfaces (应用程序用户界面) 选项卡上没有可用的应用程序历史记录信息,并且您将不再能够从控制台访问所有应用程序用户界面。

注意事项和限制

一键式访问持久性应用程序用户界面当前具有以下限制:

  • 当应用程序详细信息显示在 Spark 历史记录服务器 UI 上时,至少会有两分钟的延迟。

  • 仅当应用程序的事件日志目录位于 HDFS 中时,此功能才起作用。默认情况下,Amazon EMR 将事件日志存储在 HDFS 的目录中。如果您将默认目录更改为其他文件系统(例如 Amazon S3),则此功能将不起作用。

  • 此功能目前不适用于具有多个主节点 (master node) 的 EMR 集群或与 Amazon Lake Formation 集成的 EMR 集群。

  • 要启用一键式访问持久性应用程序用户界面,您必须有权对 EMR 执行 DescribeCluster 操作。如果您拒绝 IAM 委托人对此操作的权限,则传播权限更改所需的时间大约为 5 分钟。

  • 如果在正在运行的集群中重新配置应用程序,则将无法通过应用程序 UI 获取应用程序历史记录。

  • 对于每个Amazon账户,活动的应用程序 UI 数不能超过 50。

  • 您可以在以下区域通过控制台访问应用程序 UI:美国东部(弗吉尼亚北部和俄亥俄)、美国西部(加利福尼亚北部和俄勒冈)、加拿大(中部)、欧洲(法兰克福、爱尔兰和伦敦)、亚太地区(孟买、首尔、新加坡、悉尼和东京)、中国(北京)(由 SINNET 运营)和中国(宁夏)(由西云数据运营)区域。