使用 Amazon Glue Studio 创建 ETL 作业 - Amazon Glue Studio
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Amazon Glue Studio 创建 ETL 作业

您可以使用 Amazon Glue Studio 中的简单视觉界面,创建您的 ETL 任务。您使用 Jobs (任务) 页面创建新任务。您还可以使用脚本编辑器或笔记本直接处理 Amazon Glue Studio ETL 任务脚本中的代码。

Jobs (任务) 页面上,您可以看到您使用 Amazon Glue Studio 或 Amazon Glue 创建的所有任务。您可以在此页面上查看、管理和运行您的任务。

启动作业创建过程

您使用可视化编辑器创建和自定义任务。创建新任务时,您可以选择从空画布、具有数据源的任务、转换、数据目标节点,或者编写 ETL 脚本开始。

在 Amazon Glue Studio 中创建任务
  1. 登录 Amazon Web Services Management Console,然后通过以下网址打开 Amazon Glue Studio 控制台:https://console.aws.amazon.com/gluestudio/

  2. 您可以从 Amazon Glue Studio 登录页面中选择 Create and manage jobs (创建和管理任务),也可以从导航窗格中选择 Jobs (任务)

    此时将显示 Jobs (任务) 页面。

  3. Create job (创建任务) 部分中,为您的任务选择一个配置选项。

    • Visual with a blank canvas(具有空画布的视觉对象)– 创建以空画布开始的任务

    • Visual with a source and target(具有源和目标的视觉对象)– 创建以源节点、源、转换和目标节点开始的任务

      然后,选择数据源类型。您还可以选择数据目标类型,也可以从 Target(目标)下拉列表中选择 Choose later(稍后选择)选项,仅以图形中的数据源节点开始。

    • Spark script editor(Spark 脚本编辑器)– 对于熟悉 ETL 脚本编程和编写的用户,请选择此选项,创建新的 Spark ETL 任务。然后,您可以在脚本编辑器窗口中编写 Python 或 Scala 代码,也可以从本地文件上传现有脚本。如果您选择使用脚本编辑器,则无法使用可视化任务编辑器来设计或编辑任务。

      Spark 任务会在由 Amazon Glue 托管的 Apache Spark 环境中执行。默认情况下,新脚本以 Python 编码。要编写新的 Scala 脚本,请参阅在 Amazon Glue Studio 中创建和编辑 Scala 脚本

    • Python Shell script editor(Python Shell 脚本编辑器)– 对于熟悉 ETL 脚本编程和编写的用户,请选择此选项,创建新的 Python Shell 任务。您可以在脚本编辑器窗口中从模板(boilerplate)开始编写代码,也可以从本地文件上传现有脚本。如果您选择使用 Python shell 编辑器,则无法使用可视化任务编辑器来设计或编辑任务。

      Python shell 任务将 Python 脚本作为 shell 运行,支持的 Python 版本具体取决于您为任务选择的 Amazon Glue 版本。您可以使用这些作业来计划和运行不需要 Apache Spark 环境的任务。

    • Jupyter Notebook – 对于熟悉 ETL 脚本编程和编写的用户,选择此选项可以使用基于 Jupyter 笔记本的笔记本界面创建新的 Python 或 Scala 任务脚本。您可以在笔记本中编写代码。如果您选择使用笔记本界面创建任务,则无法使用可视化任务编辑器来设计或编辑任务。

      您还可以使用命令行界面轻松配置笔记本以创作任务。

  4. 选择 Create(创建)可以在所选编辑界面中创建任务。

    
            屏幕截图显示 Amazon Glue Studio 的 Jobs (任务) 页面。在“Create job (创建任务)”部分中,已选“Visual with a source and target (具有源和目标的视觉对象)”选项,其他任务创建选项是“Visual with a blank canvas (具有空画布的视觉对象)”、“Spark script editor (Spark 脚本编辑器)”和“Python Shell script editor (Python Shell 脚本编辑器)”。“Create job (创建任务)”选项下方是“Source (源)”下拉列表,其中显示了各种可用的数据源类型:Amazon Glue Data Catalog、Amazon S3、Amazon Kinesis、Apache Kafka、Relational DB、Amazon Redshift、MySQL 和 PostgreSQL,还有很多未在屏幕截图中显示。“Source (源)”下拉列表的右侧是“Target (目标)”下拉列表,显示“Amazon S3”。“Create (创建)”按钮在图像右上角附近,以橙色突出显示。
  5. 如果选择 Jupyter 笔记本选项,将显示 Create job in Jupyter notebook(在 Jupyter 笔记本中创建任务)页面,而不是任务编辑器界面。在创建笔记本创作会话之前,必须提供附加信息。有关如何指定此信息的详细信息,请参阅 在 Amazon Glue Studio 中开启笔记本

创建使用连接器的任务

将连接器添加到 Amazon Glue Studio 并为该连接器创建连接之后,您可以创建一项任务,将该连接用于数据源。

有关详细说明,请参阅使用自定义连接器编写任务

在 Amazon Glue Studio 中创建任务的后续步骤

您使用可视化任务编辑器为任务配置节点。每个节点表示一项操作,例如从源位置读取数据或者为数据应用转换。您添加到任务的每个节点都具有相关属性,提供有关数据位置或转换的信息。

创建和管理任务的后续步骤包括: