本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用创建集群 JupyterHub
您可以 JupyterHub 使用 Amazon Web Services Management Console、 Amazon Command Line Interface或 Amazon 创建 Amazon EMR 集群EMRAPI。确保不使用在完成步骤后自动终止的选项( Amazon CLI中的 --auto-terminate
选项)创建此集群。此外,确保管理员和笔记本用户可以访问创建集群时使用的密钥对。有关更多信息,请参阅《Amazon EMR 管理指南》中的 “使用密钥对作为SSH凭证”。
JupyterHub 使用控制台创建集群
使用以下步骤在 Amazon EMR 控制台中使用高级选项创建 JupyterHub 已安装的集群。
使用亚马逊EMR控制台创建 JupyterHub 已安装的 Amazon EMR 集群
导航到新的 Amazon EMR 控制台,然后从侧面导航栏中选择 “切换到旧主机”。有关切换到旧控制台后预期情况的更多信息,请参阅 Using the old console。
-
依次选择 Create cluster (创建集群)、Go to advanced options (转到高级选项)。
在 Software Configuration (软件配置) 下:
对于 “版本”,选择 emr-5.36.2,然后选择。 JupyterHub
如果你使用 Spark,要使用 Amazon Glue 数据目录作为 Spark 的元数据库SQL,请选择 “用于 Spark 表元数据”。有关更多信息,请参阅 使用 Amazon Glue 数据目录作为 Spark 的元数据库 SQL。
对于编辑软件设置,选择输入配置并指定值,或者选择JSON从 S3 加载并指定JSON配置文件。有关更多信息,请参阅 正在配置 JupyterHub。
在 Add steps (添加步骤) (可选) 下,配置创建集群后要运行的步骤,确保 Auto-terminate cluster after the last step is completed (完成最后的步骤后,自动终止集群) 未选中,然后选择 Next (下一步)。
选择 Hardware Configuration (硬件配置) 选项、Next (下一步)。有关更多信息,请参阅 Amazon EMR 管理指南中的配置集群硬件和联网。
选择 General Cluster Settings (常规集群设置) 和 Next (下一步) 选项。
选择 Security Options (安全选项) 以指定密钥对,然后选择 Create Cluster (创建集群)。
JupyterHub 使用创建集群 Amazon CLI
要使用启动集群 JupyterHub,请使用aws emr create-cluster
命令,并在--applications
选项中指定Name=JupyterHub
。以下示例在 Amazon 上启动EMR具有两个EC2实例(一个主实例和一个核心实例)的 JupyterHub集群。此外,已启用调试,日志存储在 --log-uri
所指定的 Amazon S3 位置中。指定的密钥对提供对集群中的 Amazon EC2 实例的访问权限。
注意
为了便于读取,包含 Linux 行继续符 (\)。它们可以通过 Linux 命令删除或使用。对于 Windows,请将它们删除或替换为脱字号 (^)。
aws emr create-cluster --name="
MyJupyterHubCluster
" --release-label emr-5.36.2 \ --applications Name=JupyterHub --log-uris3://amzn-s3-demo-bucket/MyJupyterClusterLogs
\ --use-default-roles --instance-type m5.xlarge --instance-count2
--ec2-attributes KeyName=MyKeyPair