使用 Amazon Glue Studio 创建 ETL 作业
您可以使用 Amazon Glue Studio 中的简单视觉界面,创建您的 ETL 任务。您使用 Jobs (任务) 页面创建新任务。您还可以使用脚本编辑器或笔记本直接处理 Amazon Glue Studio ETL 任务脚本中的代码。
在 Jobs (任务) 页面上,您可以看到您使用 Amazon Glue Studio 或 Amazon Glue 创建的所有任务。您可以在此页面上查看、管理和运行您的任务。
启动作业创建过程
您使用可视化编辑器创建和自定义任务。创建新任务时,您可以选择从空画布、具有数据源的任务、转换、数据目标节点,或者编写 ETL 脚本开始。
在 Amazon Glue Studio 中创建任务
登录 Amazon Web Services Management Console,然后通过以下网址打开 Amazon Glue Studio 控制台:https://console.aws.amazon.com/gluestudio/
。 -
您可以从 Amazon Glue Studio 登录页面中选择 Create and manage jobs (创建和管理任务),也可以从导航窗格中选择 Jobs (任务)。
此时将显示 Jobs (任务) 页面。
-
在 Create job (创建任务) 部分中,为您的任务选择一个配置选项。
-
Visual with a blank canvas(具有空画布的视觉对象)– 创建以空画布开始的任务
-
Visual with a source and target(具有源和目标的视觉对象)– 创建以源节点、源、转换和目标节点开始的任务
然后,选择数据源类型。您还可以选择数据目标类型,也可以从 Target(目标)下拉列表中选择 Choose later(稍后选择)选项,仅以图形中的数据源节点开始。
-
Spark script editor(Spark 脚本编辑器)– 对于熟悉 ETL 脚本编程和编写的用户,请选择此选项,创建新的 Spark ETL 任务。然后,您可以在脚本编辑器窗口中编写 Python 或 Scala 代码,也可以从本地文件上传现有脚本。如果您选择使用脚本编辑器,则无法使用可视化任务编辑器来设计或编辑任务。
Spark 任务会在由 Amazon Glue 托管的 Apache Spark 环境中执行。默认情况下,新脚本以 Python 编码。要编写新的 Scala 脚本,请参阅在 Amazon Glue Studio 中创建和编辑 Scala 脚本。
-
Python Shell script editor(Python Shell 脚本编辑器)– 对于熟悉 ETL 脚本编程和编写的用户,请选择此选项,创建新的 Python Shell 任务。您可以在脚本编辑器窗口中从模板(boilerplate)开始编写代码,也可以从本地文件上传现有脚本。如果您选择使用 Python shell 编辑器,则无法使用可视化任务编辑器来设计或编辑任务。
Python shell 任务将 Python 脚本作为 shell 运行,支持的 Python 版本具体取决于您为任务选择的 Amazon Glue 版本。您可以使用这些作业来计划和运行不需要 Apache Spark 环境的任务。
-
Jupyter Notebook – 对于熟悉 ETL 脚本编程和编写的用户,选择此选项可以使用基于 Jupyter 笔记本的笔记本界面创建新的 Python 或 Scala 任务脚本。您可以在笔记本中编写代码。如果您选择使用笔记本界面创建任务,则无法使用可视化任务编辑器来设计或编辑任务。
您还可以使用命令行界面轻松配置笔记本以创作任务。
-
-
选择 Create(创建)可以在所选编辑界面中创建任务。
-
如果选择 Jupyter 笔记本选项,将显示 Create job in Jupyter notebook(在 Jupyter 笔记本中创建任务)页面,而不是任务编辑器界面。在创建笔记本创作会话之前,必须提供附加信息。有关如何指定此信息的详细信息,请参阅 在 Amazon Glue Studio 中开启笔记本。
创建使用连接器的任务
将连接器添加到 Amazon Glue Studio 并为该连接器创建连接之后,您可以创建一项任务,将该连接用于数据源。
有关详细说明,请参阅使用自定义连接器编写任务。
在 Amazon Glue Studio 中创建任务的后续步骤
您使用可视化任务编辑器为任务配置节点。每个节点表示一项操作,例如从源位置读取数据或者为数据应用转换。您添加到任务的每个节点都具有相关属性,提供有关数据位置或转换的信息。
创建和管理任务的后续步骤包括: