Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

配置 JupyterHub

通过连接到集群主节点并编辑配置文件,可以自定义 JupyterHub on Amazon EMR 和独立用户笔记本的配置。在更改值之后,重启 jupyterhub 容器。

修改以下文件中的属性以配置 JupyterHub 和独立 Jupyter 笔记本:

  • jupyterhub_config.py—默认情况下,此文件保存在主节点上的 /etc/jupyter/conf/ 目录中。有关更多信息,请参阅 JupyterHub 文档中的配置基础知识

  • jupyter_notebook_config.py—默认情况下,此文件将保存到 /etc/jupyter/ 目录中,并在创建用户笔记本时作为默认值复制到 jupyterhub 容器中。有关更多信息,请参阅 Jupyter 笔记本文档中的配置文件和命令行选项

还可在创建集群时使用 jupyter-sparkmagic-conf 配置分类以自定义 Sparkmagic,这将更新 Sparkmagic 的 config.json 文件中的值。有关可用设置的更多信息,请参阅 GitHub 上的 example_config.json。有关在 Amazon EMR 中对应用程序使用配置分类的更多信息,请参阅配置应用程序

以下示例使用 AWS CLI 启动集群,以引用 Sparkmagic 配置分类设置的文件 MyJupyterConfig.json

注意

包含了 Linux 行继续符 (\) 以提高可读性。可以在 Linux 命令中删除或使用它们。对于 Windows,请删除它们或将其替换为脱字号 (^)。

aws emr create-cluster --use-default-roles --release-label emr-5.14.0 \ --applications Name=Jupyter --instance-type m4.xlarge --instance-count 3 \ --ec2-attributes KeyName=MyKey,SubnetId=subnet-1234a5b6 --configurations file://MyJupyterConfig.json

MyJupyterConfig.json 的示例内容如下所示:

[ { "Classification":"jupyter-sparkmagic-conf", "Properties": { "kernel_python_credentials" : "{\"username\":\"diego\",\"base64_password\":\"mypass\",\"url\":\"http:\/\/localhost:8998\",\"auth\":\"None\"}" } } ]