连接到集群 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

连接到集群

运行 Amazon EMR 集群时,通常只需运行一个应用程序来分析您的数据,然后从 Amazon S3 存储桶收集输出即可。而有的时候,您可能希望在集群运行期间与主节点进行交互。例如,您可能要连接到主节点,从而运行交互式查询、检查日志文件、调试与集群有关的问题、使用在主节点上运行的应用程序(如 Ganglia)监控性能等。以下部分介绍了可用于连接到主节点的技术。

在EMR集群中,主节点是一个 Amazon EC2 实EC2例,用于协调作为任务和核心节点运行的实例。主节点公开了一个公共DNS名称,你可以用它来连接它。默认情况下,Amazon EMR 会为主节点以及核心节点和任务节点创建安全组规则,以确定您如何访问节点。

注意

您仅可以在集群运行期间连接到主节点。当集群终止时,充当主节点的EC2实例将终止且不再可用。要连接到主节点,您还必须对集群进行身份验证。您可以使用 Kerberos 进行身份验证,也可以在启动集群时指定 Amazon 密EC2钥对私钥。有关配置 Kerberos 然后进行连接的更多信息,请参阅使用 Kerberos 通过亚马逊进行身份验证 EMR。当您从控制台启动集群时,Amazon EC2 key pair 私钥将在创建集群页面的安全和访问部分中指定。

默认情况下, ElasticMapReduce-master 安全组不允许入站SSH访问。您可能需要添加一条入站规则,允许从您想要SSH访问的源进行访问(TCP端口 22)。有关修改安全组规则的更多信息,请参阅 Amazon EC2 用户指南中的向安全组添加规则

重要

请勿修改 ElasticMapReduce-master 安全组中的其余规则。修改这些规则可能会干扰集群的操作。