连接到 Amazon EMR 集群
运行 Amazon EMR 集群时,通常只需运行一个应用程序来分析您的数据,然后从 Amazon S3 存储桶收集输出即可。而有的时候,您可能希望在集群运行期间与主节点进行交互。例如,您可能要连接到主节点,从而运行交互式查询、检查日志文件、调试与集群有关的问题、使用在主节点上运行的应用程序(如 Ganglia)监控性能等。以下部分介绍了可用于连接到主节点的技术。
在 EMR 集群中,主节点是一种 Amazon EC2 实例,能够协调正以任务节点和核心节点的形式运行的 EC2 实例。主节点可用于与其公有 DNS 名称进行连接。默认情况下,Amazon EMR 会为主节点、核心节点和任务节点创建决定节点访问方式的安全组规则。
注意
您仅可以在集群运行期间连接到主节点。集群终止时,充当主节点的 EC2 实例会终止,将不再可用。要连接到主节点,您还必须对集群进行身份验证。您可以使用 Kerberos 进行身份验证,或者在启动集群时指定 Amazon EC2 密钥对私有密钥。有关配置 Kerberos 然后进行连接的更多信息,请参阅使用 Kerberos 通过 Amazon EMR 进行身份验证。在您从控制台启动集群时,需在 Create Cluster (创建集群) 页面上的 Security and Access (安全与访问) 部分中指定 Amazon EC2 密钥对私有密钥。
默认情况下,ElasticMapReduce-master 安全组不允许入站 SSH 访问。您可能需要添加一个入站规则,以允许从您想访问的源进行 SSH 访问(TCP 端口 22)。有关修改安全组规则的更多信息,请参阅《Amazon EC2 用户指南》中的向安全组添加规则。
重要
请勿修改 ElasticMapReduce-master 安全组中的其余规则。修改这些规则可能会干扰集群的操作。