创建和运行工作流程 AWS Glue - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

创建和运行工作流程 AWS Glue

您可以使用 AWS Glue 控制台创建、可视化和运行工作流程。有关使用 AWS Glue API 管理工作流程的信息,请参阅 Workflows

使用 AWS Glue 控制台

工作流程包含作业、爬网程序和触发器。在创建工作流程之前,请创建工作流程要包含的作业和爬网程序。最好是指定工作流程的按需运行爬网程序。可以在构建工作流程时创建新的触发器,也可以将现有触发器克隆 到工作流程中。在克隆触发器时,与触发器关联的所有目录对象—触发它的作业或爬网程序,以及它启动的作业或爬网程序—将添加到工作流程中。

您可以通过向工作流程图表添加触发器并为每个触发器定义监视的事件和操作来构建工作流程。首先,您可以启动触发器(它可以是按需触发器或计划触发器),并通过添加事件(条件)触发器来完成图表。

步骤 1. 创建工作流

  1. 登录 AWS 管理控制台并通过以下网址打开 AWS Glue 控制台:https://console.amazonaws.cn/glue/

  2. 在导航窗格中,在 ETL 下,选择 Workflows (工作流程)

  3. 选择 Add workflow (添加工作流程)

  4. 添加新的ETL工作流 页面,输入工作流名称和可选描述。

  5. (可选)选择 添加属性 并添加默认工作流程运行属性。

    默认运行属性作为工作流中所有作业的参数提供。有关更多信息,请参阅 获取并设置工作流程运行属性。)

  6. (可选) 最大并发量,输入最大的并发工作流程运行数,以允许此工作流程。

    您可以使用此参数来防止对数据的多次更新、控制成本以及在某些情况下防止超出任何组件作业的最大并发运行次数。如果将此参数留空,则运行的并发工作流程的数量没有限制。

  7. 选择 Add workflow (添加工作流程)

    新的工作流程将显示在 Workflows (工作流程) 页面上的列表中。

步骤 2. 添加开始触发器

  1. Workflows (工作流程) 页面上,选择新工作流程。在底部的选项卡中,选择 Graph (图表)

  2. 选择 Add trigger (添加触发器),然后在 Add trigger (添加触发器) 对话框中,执行下列操作之一:

    • 选择 添加新的,并完成 添加触发器 表格,选择 计划按需 对于 触发器类型. 然后,选择添加

      触发器将与占位符节点(标记为 Add node (添加节点))一起显示在图表中。此时,尚未保存触发器。

      
                                    具有两个矩形节点的图表:一个触发器节点,一个占位符节点。从触发节点到占位符节点的箭头点。
    • 选择 Clone existing (克隆现有项),然后选择要克隆的触发器。然后,选择添加

      触发器与它监视的作业和爬网程序以及它启动的作业和爬网程序一起显示在图表中。

      如果您错误地选择了错误的触发器,请在图表上选择该触发器,然后选择 Remove (删除)

  3. 如果您已添加新触发器,请完成以下步骤:

    1. 执行以下任一操作

      • 选择占位符节点(Add node (添加节点))。

      • 确保选择启动触发器,然后在图表上方的 Action (操作) 菜单上,选择 Add jobs/crawlers to trigger (将作业/爬网程序添加到触发器)

    2. Add jobs(s) and crawler(s) to trigger (将作业和爬网程序添加到触发器) 对话框中,选择一个或多个作业或爬网程序,然后选择 Add (添加)

      将保存触发器,并且选定作业或爬网程序会与触发器中的连接器一起显示在图表中。

      如果您错误地添加了错误的作业或爬网程序,则可以选择触发器或连接器,并选择 Remove (删除)

步骤 3 (可选)添加更多触发器

通过添加更多触发器来继续构建工作流程。要放大/缩小图表画布,请使用图表右侧的图标。对于要添加的每个触发器,请完成以下步骤:

  1. 执行以下任一操作

    • 要克隆现有触发器,请确保未选择图表上的任何节点,然后在 Action (操作) 菜单上,选择 Add trigger (添加触发器)

    • 要添加监视图表上的特定作业或爬网程序的新触发器,请选择作业或爬网程序节点,然后选择 Add trigger (添加触发器) 占位符节点。

      您可以在稍后的步骤中添加更多作业或爬网程序以监视此触发器。

  2. Add trigger (添加触发器) 对话框中,执行下列操作之一:

    • 选择 Add new (添加新项),然后完成 Add trigger (添加触发器) 表。然后,选择添加

      触发器将显示在图表中。您将在后面的步骤中完成触发器。

    • 选择 Clone existing (克隆现有项),然后选择要克隆的触发器。然后,选择添加

      触发器与它监视的作业和爬网程序以及它启动的作业和爬网程序一起显示在图表中。

      如果您错误地选择了错误的触发器,请在图表上选择该触发器,然后选择 Remove (删除)

  3. 如果您已添加新触发器,请完成以下步骤:

    1. 选择新触发器。

      如下图所示,为要监视的 (1) 事件和 (2) 操作显示了占位符节点。

      
                                    一个带有多个节点的图表,其中两个为占位符节点,这些节点称为1和2。
    2. (如果触发器已经表示事件,并且您希望添加更多的工作或爬行程序,可选择此项。)选择事件到观看占位符节点, 添加作业和爬行器以观看 对话框,选择一个或多个作业或爬行器。选择要监视的事件(SUCCEEDED、FAILED 等)并选择 Add (添加)

    3. 确保已选择触发器,然后选择操作占位符节点。

    4. Add jobs(s) and crawler(s) to watch (添加要监视的作业和爬网程序) 对话框中,选择一个或多个作业或爬网程序,然后选择 Add (添加)

      选定作业和爬网程序会与触发器中的连接器一起显示在图表中。

运行工作流程

如果工作流程的启动触发器是按需触发器,则可以从 AWS Glue 控制台、AWS Command Line Interface (AWS CLI) 或 AWS Glue API 启动工作流程。

运行工作流程(控制台)

  1. 通过以下网址打开 AWS Glue 控制台:https://console.amazonaws.cn/glue/

  2. 在导航窗格中,在 ETL 下,选择 Workflows (工作流程)

  3. 选择工作流程。在 Actions (操作) 菜单上,选择 Run (运行)

    您可以在 AWS Glue 控制台, 上次运行状态 列。

    如果工作流失败,请执行以下操作:

    1. 确保选择工作流程,然后选择 历史记 选项卡。

    2. 下方 历史记,选择最近的运行并选择 查看运行详情.

    3. 在动态(运行时间)图表中选择一个失败的作业或爬行器,然后查看 工作详情抓取器详情 右侧窗格。故障节点为红色或黄色。有关 状态 值,参见 AWS Glue 工作运行状态.

运行工作流 (AWS CLI)

  • 输入以下命令。Replace <workflow-name> 运行工作流程。

    aws glue start-workflow-run --name <workflow-name>

    如果工作流程成功启动,则此命令将返回运行 ID。