作业(旧版) - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

作业(旧版)

脚本中包含用于执行提取、转换和加载 (ETL) 工作的代码。您可以提供您自己的脚本,或者 Amazon Glue 可以通过您的指导生成脚本。有关创建您自己的脚本的信息,请参阅提供您自己的自定义脚本

您可以在 Amazon Glue 控制台中编辑脚本。当您编辑脚本时,您可以添加源、目标和转换。

编辑脚本
  1. 登录 Amazon Web Services Management Console,然后打开 Amazon Glue 控制台,网址为:https://console.aws.amazon.com/glue/。然后选择 Jobs 选项卡。

  2. 在列表中选择一个作业,然后选择 ActionEdit script 以打开脚本编辑器。

    您还可以从任务详细信息页面访问脚本编辑器。选择 Script (脚本) 选项卡,然后选择 Edit script (编辑脚本)

脚本编辑器

利用 Amazon Glue 脚本编辑器,您可以在脚本中插入、修改和删除源、目标和转换。脚本编辑器显示脚本和图表,可以帮助您直观呈现数据流。

要为脚本创建图表,请选择 Generate diagram (生成示意图)。Amazon Glue 使用脚本中以 ## 开头的注释行来呈现示意图。要在图表中正确地表示脚本,必须将注释中的参数和 Apache Spark 代码中的参数保持同步。

脚本编辑器允许您在脚本中定位光标的任何位置添加代码模板。在编辑器的顶部,选择以下选项:

  • 要向脚本中添加源表,请选择 Source

  • 要向脚本中添加目标表,请选择 Target

  • 要向脚本中添加目标位置,请选择 Target location

  • 要向脚本中添加转换,请选择 Transform。有关脚本中调用的函数的信息,请参阅在 PySpark 中编写 Amazon Glue ETL 脚本

  • 要向脚本中添加 Spigot,请选择 Spigot

在插入的代码中,修改注释和 Apache Spark 代码中的 parameters。例如,如果您添加 Spigot 转换,请验证 path@args 注释行和 output 代码行中都被替换。

Logs 选项卡显示在作业运行时与其关联的日志。将会显示最新的 1000 行。

Schema (架构) 选项卡显示选定源和目标的架构(在数据目录中可用时)。