Amazon EMR Studio 中的 Workspaces - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

Amazon EMR Studio 中的 Workspaces

使用 Amazon EMR Studio 后,您可以创建和配置不同的 Workspaces 来组织和运行笔记本。本部分介绍了创建与使用 Workspaces。有关概念性概述,请参阅Workspaces

了解 Workspace 状态

创建 EMR Studio Workspace 后,它在 Workspaces 列表中显示为一行,其中包含其名称、状态、创建时间和上次修改时间戳。下表描述了 Workspace 的状态。

状态 描述
Starting (正在启动) Workspace 正在准备中,但尚未准备好使用。当 Workspace 状态为 Starting (正在启动) 时,您无法打开它。
Ready (就绪) 您可以打开 Workspace 以使用笔记本编辑器,但必须先将 Workspace 附加到 EMR 集群,然后才能运行笔记本代码。
Attaching (正在附加) 正将 Workspace 附加到集群。
Attached (已附加) Workspace 已附加到 EMR 集群,可供您编写和运行笔记本代码。如果 Workspace 的状态不是 Attached (已附加),则必须先将其附加到集群,然后才能运行笔记本代码。
Idle (空闲) Workspace 已停止且处于空闲状态。要重新激活空闲 Workspace,请从 Workspaces 列表中选择它。当您选择 Workspace 时,状态从 Idle (空闲) 变为 Starting (正在启动) 再变为 Ready (就绪)
Stopping (正在停止) Workspace 正在停止,并将设置为 Idle (空闲)。EMR Studio 会停止长时间处于非活动状态的笔记本。
Deleting (正在删除) 删除 Workspace 时,EMR Studio 会将其标记为删除并启动删除过程。删除过程完成后, Workspace 将从列表中消失。

创建 EMR Studio Workspace

您可以创建 EMR Studio Workspaces 以使用 EMR Studio 界面运行笔记本代码。

在 EMR Studio 中创建 Workspace

  1. 登录 EMR Studio。

  2. 启动 Create a Workspace (创建 Workspace) 对话框。您可以通过三种方式在 EMR Studio 中启动 Workspace 创建对话框。

    从... 请执行此操作...
    Dashboard (控制面板) 页面 选择页面右上角的 Create Workspace (创建 Workspace)
    控制面板 Overview (概览) 部分 在使用完全托管的 Jupyter 笔记本描述下选择 Create Workspace (创建 Workspace)
    Workspaces 页面 选择 Workspaces 列表的 Create Workspace (创建 Workspace)
  3. 输入 Workspace name (Workspace 名称)Description (描述)。命名 Workspace 有助于您在 Workspaces 页面上识别它。

  4. 展开 Subnet (子网) 下拉列表并为 Workspace 选择一个子网。下拉列表中的每个子网与 Studio 属于同一 Amazon Virtual Private Cloud (VPC)。

  5. (可选)要在创建 Workspace 时将集群附加到 Workspace,请展开 Advanced configuration (高级配置) 部分。

    注意

    您必须先为 Workspace 选择一个子网,然后才能在 Advanced configuration (高级配置) 下选择集群选项。

    预置新集群需要管理员的访问权限。

    为 Workspace 选择其中一个集群选项并附加集群。有关在创建 Workspace 时预置集群的更多信息,请参阅 为 Workspace 创建新的 EMR 集群

  6. 选择页面右下角的 Create Workspace (创建 Workspace)

创建 Workspace 后,EMR Studio 将打开 Workspaces 页面。您将在页面顶部看到一个绿色的成功横幅,并且可以在列表中找到新创建的 Workspace。

启动 WorkSpace

要开始使用笔记本文件,请启动 Workspace 以访问笔记本编辑器。Studio 的 Workspace 页面列出了在该 Studio 中创建的所有 Workspaces,包括 Name (名称)Status (状态)Creation time (创建时间)Last modified (上次修改时间) 等详细信息。

启动 Workspace 以编辑和运行笔记本

  1. 在 Studio 的 Workspaces 页面上,查找 Workspace。您可以按关键字或列值来筛选列表。

  2. 选择 Workspace 名称,以在新的浏览器选项卡中启动 Workspace。如果 Workspace 处于 Idle (空闲) 状态,系统可能需要几分钟才能打开它。

    注意

    一次只能有一个用户打开 Workspace 并在其中工作。如果您选择一个已在使用的 Workspace,当您尝试打开它时,EMR Studio 会显示一条通知。Workspaces 页面上的 User (用户) 列显示当前正在使用 Workspace 的用户。

了解 Workspace 用户界面

EMR Studio Workspace 用户界面基于 JupyterLab 界面,左侧边栏上有以图标表示的选项卡。当您在图标上暂停时,您会看到一个工具提示,其中显示了选项卡的名称。从左侧边栏中选择选项卡以访问以下面板。

  • File Browser (文件浏览器) – 显示 Workspace 中的文件和目录,以及链接的 Git 存储库的文件和目录。

  • Running Kernels and Terminals (正在运行的内核和终端) – 列出在 Workspace 中运行的所有内核和终端。有关更多信息,请参阅 JupyterLab 官方文档中的管理内核和终端

  • Git – 提供图形用户界面,用于在附加到 Workspace 的 Git 存储库中执行命令。该面板是一个名为 jupyterlab-git 的 JupyterLab 扩展。有关更多信息,请参阅 jupyterlab-git

  • EMR Clusters (EMR 集群) – 允许您将集群附加到 Workspace 或从 Workspace 分离集群。EMR 集群配置面板还提供高级配置选项,以帮助您创建集群并将其附加到 Workspace。有关更多信息,请参阅 为 Workspace 创建新的 EMR 集群

  • EMR Git Repository (EMR Git 存储库) – 帮助您将 Workspace 与最多三个 Git 存储库链接起来。有关详细信息和说明,请参阅将基于 Git 的存储库链接到 EMR Studio Workspace

  • Notebook Examples (笔记本示例) – 提供可以保存到 Workspace 的笔记本示例列表。您还可以通过在 Workspace 的 Launcher (启动器) 页面上选择 Notebook Examples (笔记本示例) 来访问示例。

  • Commands (命令) – 提供一种键盘驱动的方式来搜索和运行 JupyterLab 命令。有关更多信息,请参阅 JupyterLab 文档中的 Command palette (命令调色板) 页面。

  • Notebook Tools (笔记本工具) – 允许您选择和设置单元格滑动类型和元数据等选项。Notebook Tools (笔记本工具) 选项在您打开笔记本文件后显示在左侧边栏中。

  • Open Tabs (打开的选项卡) – 列出主工作区中打开的文档和活动,以便您可以跳转到打开的选项卡。有关更多信息,请参阅 JupyterLab 文档中的选项卡和单个文档模式页面。

探索笔记本示例

每个 EMR Studio Workspace 都包含一组笔记本示例,可用于探索 EMR Studio 功能。要编辑或运行笔记本示例,您可以将其保存到 Workspace。

将笔记本示例保存到 Workspace

  1. 从左侧边栏中,选择 Notebook Examples (笔记本示例) 选项卡以打开 Notebook Examples (笔记本示例) 面板。您还可以通过在 Workspace 的 Launcher (启动器) 页面上选择 Notebook Examples (笔记本示例) 来访问示例。

  2. 选择一个笔记本示例以在主工作区中进行预览。示例是只读的。

  3. 要将笔记本示例保存到 Workspace,请选择 Save to Workspace (保存到 Workspace)。EMR Studio 将示例保存在您的主目录中。将笔记本示例保存到 Workspace 后,您可以重命名、编辑和运行它。

有关笔记本示例的更多信息,请参阅 EMR Studio 笔记本示例 GitHub 存储库

保存 Workspace 内容

当您在 Workspace 的笔记本编辑器中工作时,EMR Studio 会为您将笔记本单元格和输出的内容保存在与 Studio 关联的 Amazon S3 位置。此备份过程可在会话之间保留工作。

您还可以通过在打开的笔记本选项卡中按 CTRL+S 或使用 File (文件) 下的其中一个保存选项保存笔记本。

备份 Workspace 中笔记本文件的另一种方法是将 Workspace 与基于 Git 的存储库相关联,并将更改与远程存储库同步。这样做还可以让您与使用不同 Workspace 或 Studio 的团队成员保存和共享笔记本。有关说明,请参阅 将基于 Git 的存储库链接到 EMR Studio Workspace

删除 Workspace 和笔记本文件

当您从 EMR Studio Workspace 中删除笔记本文件时,您会从 File browser (文件浏览器) 中删除该文件,并且 EMR Studio 会删除其在 Amazon S3 中的备份副本。当您从 Workspace 删除文件时,无需采取任何进一步措施来避免存储费用。

当您删除整个 Workspace 时,EMR Studio 不会删除 Amazon S3 中的任何相应笔记本文件和文件夹。这些文件会保留在 Amazon S3 中,并继续产生存储费用。为避免产生存储费用,您必须从 Amazon S3 中删除与已删除 Workspace 关联的所有备份文件和文件夹。

从 EMR Studio Workspace 中删除笔记本文件

  1. 从 Workspace 的左侧边栏中选择 File browser (文件浏览器) 面板。

  2. 选择要删除的文件或文件夹。右键单击选定内容,然后选择 Delete (删除)。该文件将从列表中消失,无法再打开。EMR Studio 会为您从 Amazon S3 中删除文件或文件夹。

从 EMR Studio 中删除 Workspace 及其关联的备份文件

  1. 使用您的 Studio 访问 URL 登录 EMR Studio,然后从左侧导航中选择 Workspaces

  2. 在列表中找到您的 Workspace,然后选中其名称旁边的复选框。您可以选择同时删除多个 Workspaces。

  3. 选择 Workspaces 列表右上角的 Delete (删除) 并确认您要删除选定的 Workspaces。选择 Delete (删除) 以确认。

  4. 按照《Amazon Simple Storage Service 控制台用户指南》中的删除对象说明,从 Amazon S3 中删除与已删除 Workspace 关联的笔记本文件。如果您没有创建 Studio,请咨询您的 Studio 管理员以确定已删除 Workspace 的 Amazon S3 备份位置。