Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

连接到集群

运行 Amazon EMR 集群时,通常只需运行一个应用程序以分析您的数据,然后从 Amazon S3 存储桶收集输出即可。而有的时候,您可能想在集群运行期间与主节点进行交互。例如,您可能要连接到主节点,从而运行交互式查询、检查日志文件、调试与集群有关的问题、使用在主节点上运行的应用程序 (如 Ganglia) 监控性能等。以下部分介绍用于连接到主节点的方法。

在 EMR 集群中,主节点是一种 Amazon EC2 实例,能够协调正以任务节点和核心节点的形式运行的 EC2 实例。主节点公开了您可用于连接主节点的公有 DNS 名称。默认情况下,Amazon EMR 会为主节点和从属节点创建决定着节点访问方式的安全组规则。例如,主节点安全组可以包含一个规则,该规则允许您通过 TCP 端口 22 使用 SSH 客户端连接到主节点。

注意

您仅可以在集群运行期间连接到主节点。集群终止时,充当主节点的 EC2 实例会终止,将不再可用。要连接到主节点,您还必须对集群进行身份验证。您可以使用 Kerberos 进行身份验证,或者在启动集群时指定 Amazon EC2 密钥对私有密钥。有关配置 Kerberos 然后进行连接的更多信息,请参阅 使用 Kerberos 身份验证。在您从控制台启动集群时,需在 Create Cluster 页面上的 Security and Access 部分中指定 Amazon EC2 密钥对私有密钥。

默认情况下,ElasticMapReduce-master 安全组不允许入站 SSH 访问。您可能需要添加一条入站规则,允许从您希望其具有访问权限的源进行 SSH 访问 (TCP 端口 22)。有关修改安全组规则的更多信息,请参阅 Amazon EC2 User Guide for Linux Instances 中的向安全组添加规则

重要

请勿修改 ElasticMapReduce-master 安全组中的其余规则。修改这些规则可能会干扰集群的操作。