Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

为笔记本创建 Amazon EMR 集群

创建笔记本或更改集群时,您可以让 Amazon EMR 同时创建一个新集群和笔记本,也可以选择先前创建的集群。同时创建一个新集群和笔记本是一种开始操作的快速方式。如果需要安装其他应用程序,使用 SSH 连接集群,或需要创建用户模拟等集群时 Amazon EMR 提供的其他自定义项,事先创建集群就非常有用。

每个集群的笔记本限制

创建支持笔记本的集群时,请考虑集群主节点的 EC2 实例类型。此 EC2 实例的内存限制决定了可以同时准备好在集群上运行代码和查询的笔记本的数量。

主节点 EC2 实例类型 笔记本数量

*.medium

2

*.large

4

*.xlarge

8

*.2xlarge

16

*.4xlarge

24

*.8xlarge

24

*.16xlarge

24

创建笔记本时创建集群

如果您在创建 EMR 笔记本时让 Amazon EMR 创建集群,那么该集群将具有以下特征和限制:

  • 它使用最新 Amazon EMR 发行版以及该版本随附的 Hadoop、Spark 和 Livy 版本。有关更多信息,请参见 Amazon EMR 版本指南

  • 创建它时不含 EC2 密钥对,因此您无法使用 SSH 连接到集群 EC2 实例。如果需要 SSH 连接,请先创建集群,然后在创建 EMR 笔记本时指定该集群。

  • 它使用按需实例,并对所有实例使用相同的实例类型。一个实例用于主节点,其余实例用于核心节点。

  • 它使用统一实例组配置。有关更多信息,请参阅 Amazon EMR 管理指南中的使用实例队列或统一实例组创建集群

  • 它在 AWS 账户的默认 VPC 中启动。

您可以指定自定义 AWS 服务角色和安全组(如果需要)。有关更多信息,请参阅 EMR 笔记本 的服务角色为 EMR Notebooks 指定 EC2 安全组。如果您需要更多自定义项或不同设置,请使用 Amazon EMR 事先一个创建集群,然后在创建笔记本时指定该集群。

使用现有 Amazon EMR 集群

EMR 笔记本 支持仅使用 Amazon EMR 创建的集群。如果您需要更强的处理能力、存储或 Amazon EMR 提供的任何广泛的集群自定义功能,则可以使用 Amazon EMR 创建集群。有关创建集群的更多信息,请参阅 Amazon EMR 管理指南中的计划和配置集群

集群必须满足以下要求才能与 EMR 笔记本 一起使用:

  • 必须在 EC2-VPC 内启动集群。支持公有和私有子网。不支持 EC2-Classic 平台。

  • 必须使用 Amazon EMR 版本 5.18.0 或更高版本创建集群。

  • 启动的集群必须安装有 Hadoop、Spark 和 Livy。可以安装其他应用程序,但 EMR 笔记本 目前仅支持 Spark 集群。

  • 不支持使用 Kerberos 身份验证的集群。