Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

创建包含 JupyterHub 的集群

可以使用 AWS 管理控制台、AWS Command Line Interface 或 Amazon EMR API 创建包含 JupyterHub 的 Amazon EMR 集群。确保不使用在完成步骤后自动终止的选项(AWS CLI 中的 --auto-terminate 选项)创建此集群。此外,确保管理员和笔记本用户可以访问创建集群时使用的密钥对。有关更多信息,请参阅 Amazon EMR 管理指南中的对 SSH 凭证使用密钥对

使用控制台创建包含 JupyterHub 的集群

执行以下过程以使用 Amazon EMR 控制台中的 Advanced Options (高级选项) 创建已安装 JupyterHub 的集群。

使用 Amazon EMR 控制台创建已安装 JupyterHub 的 Amazon EMR 集群

  1. 通过以下网址打开 Amazon EMR 控制台:https://console.amazonaws.cn/elasticmapreduce/

  2. Choose Create cluster, Go to advanced options.

  3. Software Configuration (软件配置) 下:

    • 对于 Release (版本),选择 emr-5.23.0,然后选择 JupyterHub。

    • 如果使用 Spark,要使用 AWS Glue Data Catalog作为 Spark SQL 的元存储,请选择 Use for Hive table metadata (用于 Hive 表元数据)。有关更多信息,请参阅使用 AWS Glue Data Catalog作为 Spark SQL 的元存储

    • 对于 Edit software settings (编辑软件设置),请选择 Enter configuration (输入配置) 并指定值,或选择 Load JSON from S3 (从 S3 加载 JSON) 并指定 JSON 配置文件。有关更多信息,请参阅配置 JupyterHub

  4. Add steps (添加步骤) (可选) 下,配置创建集群后要运行的步骤,确保 Auto-terminate cluster after the last step is completed (完成最后的步骤后,自动终止集群) 未选中,然后选择 Next (下一步)

  5. 选择 Hardware Configuration (硬件配置) 选项、Next (下一步)。有关更多信息,请参阅 Amazon EMR 管理指南中的配置集群硬件和联网

  6. 选择 General Cluster Settings (常规集群设置)Next (下一步) 选项。

  7. 选择 Security Options (安全选项) 以指定密钥对,然后选择 Create Cluster (创建集群)

使用 AWS CLI 创建包含 JupyterHub 的集群

要启动包含 JupyterHub 的集群,请使用 aws emr create-cluster 命令,对于 --applications 选项,请指定 Name=JupyterHub。以下示例启动 Amazon EMR 上包含两个 EC2 实例(一个是主实例,另一个是核心实例)的 JupyterHub 集群。此外,已启用调试,日志存储在 --log-uri 所指定的 Amazon S3 位置中。指定密钥对提供对集群中 Amazon EC2 实例的访问权限。

注意

包含了 Linux 行继续符 (\) 以提高可读性。可以在 Linux 命令中删除或使用它们。对于 Windows,请删除它们或将其替换为脱字号 (^)。

aws emr create-cluster --name="MyJupyterHubCluster" --release-label emr-5.23.0 \ --applications Name=JupyterHub --log-uri s3://MyBucket/MyJupyterClusterLogs \ --use-default-roles --instance-type m4.large --instance-count 2 --ec2-attributes KeyName=MyKeyPair