在 Amazon Glue Studio 中开启笔记本 - Amazon Glue Studio
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

在 Amazon Glue Studio 中开启笔记本

当您通过 Amazon Glue Studio 开启笔记本时,所有配置步骤都已为您完成,让您在几秒钟后即可浏览数据并开始开发任务脚本。

以下各部分介绍如何使用 Amazon Glue Studio 为 ETL 任务创建笔记本。

在 Amazon Glue Studio 中使用笔记本创建 ETL 任务

在 Amazon Glue Studio 控制台中开启使用笔记本

  1. 按照 Amazon Identity and Access Management 中的说明,将 Amazon Glue Studio 策略附上 为 Amazon Glue Studio 设置 IAM 权限 用户并为 ETL 任务和笔记本创建 IAM 角色。

  2. 按照其中的描述,为笔记本配置额外的 IAM 安全性

  3. 请访问 https://console.aws.amazon.com/gluestudio/ 打开 Amazon Glue Studio 控制台。

  4. 选择左侧导航菜单中的 Jobs(任务)链接。

  5. 选择 Jupyter notebook(Jupyter 笔记本),然后选择 Create(创建)以开启新的笔记本会话。

  6. Create job in Jupyter notebook(在 Jupyter 笔记本中创建任务)页面上,提供任务名称、要使用的 IAM 角色,并选择要在笔记本中使用的编程语言。选择创建任务

    等待很短一段时间后,将出现笔记本编辑器。

  7. 笔记本不会自动运行任何代码。要配置会话,请使用 %%configure 魔术指定笔记本会话参数。有关魔术代码的更多信息,请参阅 Amazon Glue 开发人员指南

    当笔记本首次打开时,其中一个单元格包含基于您在 Create job in Jupyter notebook(在 Jupyter 笔记本中创建任务)页面上提供的信息的 %%configure 命令示例。您可以修改此单元格以自定义笔记本会话。

    运行单元格以开启新的笔记本会话并生成会话 id。

  8. 添加单元格,然后输入代码或标记文字。

    有关使用 Jupyter 笔记本界面编写代码的信息,请参阅 Jupyter Notebook 用户文档

  9. 要测试脚本,请运行整个脚本或单个单元格。任何命令输出都将显示在单元格下方的区域中。

  10. 完成脚本开发后,可以保存任务,然后运行。有关运行任务的更多信息,请参阅 启动任务运行

笔记本编辑器组件

笔记本编辑器界面有以下主要部分。

  • 笔记本界面(主面板)和工具栏

  • 任务编辑选项卡

笔记本编辑器

Amazon Glue Studio 笔记本编辑器基于 Jupyter Notebook 应用程序。Amazon Glue Studio 笔记本界面与 Juypter Notebooks 提供的界面类似,笔记本用户界面一节对此进行了描述。交互式会话使用的笔记本是 Jupyter Notebook。

尽管 Amazon Glue Studio 笔记本与 Juptyer Notebooks 相似,但在几个关键方面有所不同:

  • 目前,Amazon Glue Studio 笔记本无法安装扩展

  • 不能使用多个选项卡;任务和笔记本之间存在一一对应关系

  • Amazon Glue Studio 笔记本没有与 Jupyter Notebooks 相同的顶部文件菜单

  • 目前,Amazon Glue Studio 笔记本只能运行 Amazon Glue 内核

Amazon Glue Studio 任务编辑选项卡

用于与 ETL 任务交互的选项卡位于笔记本页面的顶部。这些选项卡类似于 Amazon Glue Studio 的可视化任务编辑器中显示的选项卡,并且执行的操作也相同。

  • Notebook(笔记本)– 使用此选项卡可使用笔记本界面查看任务脚本。

  • Job details(任务详细信息)– 配置任务运行的环境和属性。

  • Runs(运行)– 查看有关此任务以前运行的信息。

  • Schedules(调度)– 配置在特定时间运行任务的调度表。

保存笔记本和任务脚本

您可以随时保存笔记本和正在创建的任务脚本。只需选择右上角的 Save(保存)按钮,就像使用可视化编辑器或脚本编辑器一样。

选择 Save(保存)时,任务脚本和笔记本文件将保存在指定的位置。

  • 任务脚本将保存到 Scripts 文件夹中任务属性 Script path(脚本路径)指示的 Amazon S3 位置。

  • 笔记本文件 (.ipynb) 将保存到 Notebooks 文件夹中任务属性 Script path(脚本路径)指示的 Amazon S3 位置。

保存任务时,任务脚本仅包含笔记本中的代码单元格。标记单元格不包括在内。

保存任务后,可以使用在笔记本中创建的脚本运行任务。

管理笔记本会话

Amazon Glue Studio 中的笔记本基于 Amazon Glue 的交互式会话功能。使用交互式会话需要成本。为了帮助管理成本,您可以监控为您的账户创建的会话,并为所有会话配置原定设置。

更改所有笔记本会话的原定设置超时

预设情况下,Glue Studio 中的笔记本(交互式)会话在 1 小时后超时。

在 Amazon Glue Studio 中修改笔记本的原定设置会话超时

  1. 在笔记本中,在单元格中输入 %idle_timeout 魔术并以分钟为单位指定超时值。

  2. 例如:%idle_timeout 15 会将原定设置超时从 60 分钟更改为 15 分钟。如果 15 分钟内未使用会话,则会话将自动停止。

安装其他 Python 模块

如果要使用 pip 将其他模块安装到会话中,可以使用 %additional_python_modules 将其添加到会话中:

%additional_python_modules awswrangler, s3://mybucket/mymodule.whl

additional_python_modules 的所有参数都将传递给 pip3 install -m <>

要查看可用 Python 模块的列表,请参阅将 Python 库与 Amazon Glue 一起使用

更改 Amazon Glue 配置

Amazon Glue 支持各种工件类型。可以使用 %worker_type 设置工件类型。例如:%worker_type G.2X 。原定设置为 G.1X。

您还可以使用 %number_of_workers 指定工件数量。例如,要指定 40 个工件:%number_of_workers 40

有关更多信息,请参阅定义任务属性

停止笔记本会话

要停止笔记本会话,请使用魔术 %stop_session

如果您在 Amazon 控制台中离开笔记本,您将收到一条警告消息,您可以在其中选择停止会话。