带有 Amazon Glue Studio 的 Visual ETL - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

带有 Amazon Glue Studio 的 Visual ETL

您可以使用 Amazon Glue Studio 中的简单视觉界面,创建您的 ETL 任务。您使用 Jobs (任务) 页面创建新任务。您还可以使用脚本编辑器或笔记本直接处理 Amazon Glue Studio ETL 任务脚本中的代码。

Jobs (任务) 页面上,您可以看到您使用 Amazon Glue Studio 或 Amazon Glue 创建的所有任务。您可以在此页面上查看、管理和运行您的任务。

另请参阅博客教程中的另一个示例,说明了如何使用 Amazon Glue Studio 创建 ETL作业。

在 Amazon Glue Studio 中启动作业

Amazon Glue 允许您通过可视化界面、交互式代码笔记本或脚本编辑器创建作业。您可以通过单击任一选项来启动作业,也可以根据示例作业创建新作业。

示例作业使用您选择的工具创建作业。例如,示例作业允许您创建将 CSV 文件联接到目录表中的可视化 ETL 作业,使用 pandas 时在互式代码笔记本中使用 Amazon Glue for Ray 或 Amazon Glue for Spark 创建作业,或者使用 SparkSQL 在交互式代码笔记本中创建作业。

Amazon Glue Studio从头开始创建工作

  1. 登录 Amazon Web Services Management Console 并打开Amazon Glue Studio控制台,网址为 https://console.aws.amazon.com/gluestudio/

  2. 在导航窗格中,选择 ETL 作业

  3. 创建作业部分中,为您的作业选择一个配置选项。

    用于从头开始创建作业的选项:

    • Visual ETL - 以数据流为重点的可视化界面中编写

    • 使用交互代码笔记本编写 - 基于 Jupyter Notebooks 的笔记本界面中以交互方式编写作业

      选择此选项后,在创建笔记本创作会话之前,必须提供附加信息。有关如何指定此信息的详细信息,请参阅 在 Amazon Glue Studio 中开启笔记本

    • 使用脚本编辑器编写代码 – 对于熟悉编程和编写 ETL 脚本的用户,请选择此选项,创建新的 Spark ETL 任务。选择引擎(Python shell、Ray、Spark(Python)或 Spark(Scala)。然后,选择重新开始上传脚本,从本地文件上传现有脚本。如果您选择使用脚本编辑器,则无法使用可视化任务编辑器来设计或编辑任务。

      Spark 任务会在由 Amazon Glue 托管的 Apache Spark 环境中执行。默认情况下,新脚本以 Python 编码。要编写新的 Scala 脚本,请参阅在 Amazon Glue Studio 中创建和编辑 Scala 脚本

通过示例作业在Amazon Glue Studio中创建作业

您可以选择从示例作业创建作业。在示例作业部分,选择一个示例作业,然后选择创建示例作业。使用其中一个选项创建示例作业提供了一个可供您使用的快速模板。

  1. 登录 Amazon Web Services Management Console 并打开Amazon Glue Studio控制台,网址为 https://console.aws.amazon.com/gluestudio/

  2. 在导航窗格中,选择 ETL 作业

  3. 选择一个选项,从示例作业创建作业:

    • 用于联接多个源的 Visual ETL 作业 - 读取三个 CSV 文件,合并数据,更改数据类型,然后将数据写入 Amazon S3 并对其进行编目以供日后查询。

    • 用于并行化 Python 的 Ray 笔记本 - 使用 Ray 框架在 Python 中进行并行处理。从 Amazon S3 读取 parquet 文件,浏览和筛选数据,然后将其保存到 CSV 文件中。

    • 使用 Pandas 的 Spark 笔记本 - 使用广受欢迎的 Pandas 框架与 Spark 相结合,探索和可视化数据。

    • 使用 SQL 的 Spark 笔记本 - 使用 SQL 快速开始使用 Apache Spark。通过 Amazon Glue Data Catalog 访问数据,并使用熟悉的命令对其进行转换。

  4. 选择创建示例作业