使用 JupyterHub 创建集群 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 JupyterHub 创建集群

您可以使用 JupyterHub 创建亚马逊 EMR 集群,使用Amazon Web Services Management Console、Amazon Command Line Interface或亚马逊 EMR API。确保不使用在完成步骤后自动终止的选项(Amazon CLI 中的 --auto-terminate 选项)创建此集群。此外,确保管理员和笔记本用户可以访问创建集群时使用的密钥对。有关更多信息,请参阅 。使用 key pair 用于 SSH 凭据中的Amazon EMR 管理指南

使用控制台通过 JupyterHub 创建集群

要使用 JupyterHub 安装在 JupyterHub 的群集,请按照以下过程操作高级选项在 Amazon EMR 控制台中。

使用亚马逊 EMR 控制台创建安装 JupyterHub 的亚马逊 EMR 集群

  1. 打开 Amazon EMR 控制台https://console.aws.amazon.com/elasticmapreduce/

  2. 依次选择 Create cluster (创建集群)Go to advanced options (转到高级选项)

  3. Software Configuration (软件配置) 下:

    • 适用于版本,选择 emr-5.33.0,然后选择 JupyterHub。

    • 如果您使用 Spark,请使用Amazon将数据目录作为 Spark SQL 的元存储,请选择用于 Spark 表元数据。有关更多信息,请参阅 使用Amazon将 Glue 数据目录作为 Spark SQL 的元存储

    • 对于 Edit software settings (编辑软件设置),请选择 Enter configuration (输入配置) 并指定值,或选择 Load JSON from S3 (从 S3 加载 JSON) 并指定 JSON 配置文件。有关更多信息,请参阅 配置 JupyterHub

  4. Add steps (添加步骤) (可选) 下,配置创建集群后要运行的步骤,确保 Auto-terminate cluster after the last step is completed (完成最后的步骤后,自动终止集群) 未选中,然后选择 Next (下一步)

  5. 选择 Hardware Configuration (硬件配置) 选项、Next (下一步)。有关更多信息,请参阅 。配置集群硬件和网络中的Amazon EMR 管理指南

  6. 选择 General Cluster Settings (常规集群设置)Next (下一步) 选项。

  7. 选择 Security Options (安全选项) 以指定密钥对,然后选择 Create Cluster (创建集群)

使用创建 JupyterHub 的集群Amazon CLI

若要启动 JupyterHub 的集群,请使用aws emr create-cluster命令,对于--applications选项,指定Name=JupyterHub。以下示例启动 Amazon EMR 上包含两个 EC2 实例(一个是主实例,另一个是核心实例)的 JupyterHub 集群。此外,已启用调试,日志存储在 Amazon S3 位置(--log-uri。指定 key pair 提供对集群中 Amazon EC2 实例的访问权限。

注意

为了便于读取,包括 Linux 行延续字符 (\)。它们可以被删除或在 Linux 命令中使用。对于 Windows,请将其删除或替换为脱字号 (^)。

aws emr create-cluster --name="MyJupyterHubCluster" --release-label emr-5.33.0 \ --applications Name=JupyterHub --log-uri s3://MyBucket/MyJupyterClusterLogs \ --use-default-roles --instance-type m5.xlarge --instance-count 2 --ec2-attributes KeyName=MyKeyPair