在 Amazon Glue Studio 中开启笔记本
当您通过 Amazon Glue Studio 开启笔记本时,所有配置步骤都已为您完成,让您在几秒钟后即可浏览数据并开始开发任务脚本。
以下各部分介绍如何使用 Amazon Glue Studio 为 ETL 任务创建笔记本。
在 Amazon Glue Studio 中使用笔记本创建 ETL 任务
在 Amazon Glue Studio 控制台中开启使用笔记本
-
按照 Amazon Identity and Access Management 中的说明,将 Amazon Glue Studio 策略附上 为 Amazon Glue Studio 设置 IAM 权限 用户并为 ETL 任务和笔记本创建 IAM 角色。
-
按照其中的描述,为笔记本配置额外的 IAM 安全性
-
请访问 https://console.aws.amazon.com/gluestudio/
打开 Amazon Glue Studio 控制台。 -
选择左侧导航菜单中的 Jobs(任务)链接。
-
选择 Jupyter notebook(Jupyter 笔记本),然后选择 Create(创建)以开启新的笔记本会话。
-
在 Create job in Jupyter notebook(在 Jupyter 笔记本中创建任务)页面上,提供任务名称、要使用的 IAM 角色,并选择要在笔记本中使用的编程语言。选择创建任务。
等待很短一段时间后,将出现笔记本编辑器。
-
笔记本不会自动运行任何代码。要配置会话,请使用
%%configure
魔术指定笔记本会话参数。有关魔术代码的更多信息,请参阅 Amazon Glue 开发人员指南。当笔记本首次打开时,其中一个单元格包含基于您在 Create job in Jupyter notebook(在 Jupyter 笔记本中创建任务)页面上提供的信息的
%%configure
命令示例。您可以修改此单元格以自定义笔记本会话。运行单元格以开启新的笔记本会话并生成会话 id。
-
添加单元格,然后输入代码或标记文字。
有关使用 Jupyter 笔记本界面编写代码的信息,请参阅 Jupyter Notebook 用户文档
。 -
要测试脚本,请运行整个脚本或单个单元格。任何命令输出都将显示在单元格下方的区域中。
-
完成脚本开发后,可以保存任务,然后运行。有关运行任务的更多信息,请参阅 启动任务运行。
笔记本编辑器组件
笔记本编辑器界面有以下主要部分。
-
笔记本界面(主面板)和工具栏
-
任务编辑选项卡
笔记本编辑器
Amazon Glue Studio 笔记本编辑器基于 Jupyter Notebook 应用程序。Amazon Glue Studio 笔记本界面与 Juypter Notebooks 提供的界面类似,笔记本用户界面
尽管 Amazon Glue Studio 笔记本与 Juptyer Notebooks 相似,但在几个关键方面有所不同:
-
目前,Amazon Glue Studio 笔记本无法安装扩展
-
不能使用多个选项卡;任务和笔记本之间存在一一对应关系
-
Amazon Glue Studio 笔记本没有与 Jupyter Notebooks 相同的顶部文件菜单
-
目前,Amazon Glue Studio 笔记本只能运行 Amazon Glue 内核
Amazon Glue Studio 任务编辑选项卡
用于与 ETL 任务交互的选项卡位于笔记本页面的顶部。这些选项卡类似于 Amazon Glue Studio 的可视化任务编辑器中显示的选项卡,并且执行的操作也相同。
-
Notebook(笔记本)– 使用此选项卡可使用笔记本界面查看任务脚本。
-
Job details(任务详细信息)– 配置任务运行的环境和属性。
-
Runs(运行)– 查看有关此任务以前运行的信息。
-
Schedules(调度)– 配置在特定时间运行任务的调度表。
保存笔记本和任务脚本
您可以随时保存笔记本和正在创建的任务脚本。只需选择右上角的 Save(保存)按钮,就像使用可视化编辑器或脚本编辑器一样。
选择 Save(保存)时,任务脚本和笔记本文件将保存在指定的位置。
-
任务脚本将保存到
Scripts
文件夹中任务属性 Script path(脚本路径)指示的 Amazon S3 位置。 -
笔记本文件 (
.ipynb
) 将保存到Notebooks
文件夹中任务属性 Script path(脚本路径)指示的 Amazon S3 位置。
保存任务时,任务脚本仅包含笔记本中的代码单元格。标记单元格不包括在内。
保存任务后,可以使用在笔记本中创建的脚本运行任务。
管理笔记本会话
Amazon Glue Studio 中的笔记本基于 Amazon Glue 的交互式会话功能。使用交互式会话需要成本。为了帮助管理成本,您可以监控为您的账户创建的会话,并为所有会话配置原定设置。
更改所有笔记本会话的原定设置超时
预设情况下,Glue Studio 中的笔记本(交互式)会话在 1 小时后超时。
在 Amazon Glue Studio 中修改笔记本的原定设置会话超时
-
在笔记本中,在单元格中输入
%idle_timeout
魔术并以分钟为单位指定超时值。 -
例如:
%idle_timeout 15
会将原定设置超时从 60 分钟更改为 15 分钟。如果 15 分钟内未使用会话,则会话将自动停止。
安装其他 Python 模块
如果要使用 pip 将其他模块安装到会话中,可以使用 %additional_python_modules
将其添加到会话中:
%additional_python_modules awswrangler, s3://mybucket/mymodule.whl
additional_python_modules 的所有参数都将传递给 pip3 install -m <>
要查看可用 Python 模块的列表,请参阅将 Python 库与 Amazon Glue 一起使用
更改 Amazon Glue 配置
Amazon Glue 支持各种工件类型。可以使用 %worker_type
设置工件类型。例如:%worker_type G.2X
。原定设置为 G.1X。
您还可以使用 %number_of_workers
指定工件数量。例如,要指定 40 个工件:%number_of_workers 40
。
有关更多信息,请参阅定义任务属性
停止笔记本会话
要停止笔记本会话,请使用魔术 %stop_session
。
如果您在 Amazon 控制台中离开笔记本,您将收到一条警告消息,您可以在其中选择停止会话。