本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
配置 Amazon EMR 集群硬件和网络
创建 Amazon EMR 集群时需要考虑的一个重要因素是如何配置 Amazon EC2 实例和网络选项。本章将详细介绍这些选项,然后将它们与最佳实践和指南相关联。
-
节点类型 — EMR 集群中的 Amazon EC2 实例按节点类型进行组织。即主节点、核心节点和任务节点。每个节点类型都执行一组由安装在集群上的分布式应用程序定义的角色。例如,在 Hadoop MapReduce 或 Spark 任务期间,核心节点和任务节点上的组件会处理数据,将输出传输到 Amazon S3 或HDFS,然后向主节点提供状态元数据。对于单节点集群,所有组件都在主节点上运行。有关更多信息,请参阅 了解 Amazon 中的节点类型EMR:主节点、核心节点和任务节点。
-
EC2实例 — 创建集群时,您可以选择每种类型的节点将在哪个 Amazon EC2 实例上运行。EC2实例类型决定了节点的处理和存储配置文件。为您的节点选择 Amazon EC2 实例很重要,因为它决定了集群中各个节点类型的性能状况。有关更多信息,请参阅 配置亚马逊EC2实例类型以与亚马逊配合使用 EMR。
-
联网 — 您可以使用公有子网、私有VPC子网或共享子网将您的 Amazon EMR 集群启动到中。您的联网配置决定了客户和服务如何连接到集群来执行工作、集群如何连接到数据存储和其它 Amazon 资源,以及用于控制这些连接上的流量的选项。有关更多信息,请参阅 在 a for Amazon VPC 中配置网络 EMR。
-
实例分组-托管每种节点类型的EC2实例集合称为实例队列或统一实例组。实例分组配置是您在创建集群时所做的选择。此选择决定了在集群运行时向集群添加节点的方式。配置适用于所有节点类型。它可以在稍后更改。有关更多信息,请参阅 使用实例队列或统一实例EMR组创建一个 Amazon 集群。
注意
实例队列配置仅在亚马逊 4.8.0 及更高EMR版本中可用,不包括 5.0.0 和 5.0.3。