AWS Glue 中的工作流程概述 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

AWS Glue 中的工作流程概述

在 AWS Glue 中,可以使用工作流程创建和可视化涉及多个爬网程序、作业和触发器的复杂的提取、转换和加载 (ETL) 活动。每个工作流程都管理其所有组件的执行和监控。当工作流程运行每个组件时,它会记录执行进度和状态,这将为您提供大型任务的概述和每个步骤的详细信息。AWS Glue 控制台以图表形式提供工作流程的可视化表示。

工作流程中的事件触发器可以由作业或爬网程序触发,也可以启动作业和爬网程序。因此,您可以创建相互依赖的作业和爬网程序的大型链。

要在工作流程运行中共享和管理状态,您可以定义默认工作流程运行属性。这些属性是名称/值对,可用于工作流程中的所有作业。利用 AWS Glue API,作业可以检索工作流程运行属性,并为工作流程中后面的作业修改它们。

下图显示 AWS Glue 控制台上的基本工作流程的图表。您的工作流程可能拥有几十个组件。


            显示工作流程的“Graph (图表)”选项卡的控制台屏幕截图。图表包含 5 个图标,它们分别表示 1 个计划触发器、2 个作业、1 个事件成功触发器以及 1 个更新架构的爬网程序。

此工作流程由计划触发器启动,该计划触发器启动两个作业。在成功完成这两个作业后,事件触发器将启动爬网程序。

静态和动态工作流程视图

对于每个工作流程,存在静态视图动态视图 的概念。静态视图表示工作流程的设计。动态视图是一个运行时视图,包含每个作业和爬网程序的最新运行信息。运行信息包含成功状态和错误详细信息。

当工作流程正在运行时,控制台将显示一个动态视图,它以图形方式指示作业已完成且尚未运行。您还可以使用 AWS Glue API 检索正在运行的工作流程的动态视图。有关更多信息,请参阅 使用 AWS Glue API 查询工作流程

工作流程限制

请记住以下工作流程限制:

  • 一个触发器只能与一个工作流程关联。

  • 仅允许一个启动触发器(按需或计划)。

  • 如果工作流程中的某个作业或爬网程序由工作流外部的触发器启动,则工作流程中依赖于该作业或爬网程序完成(成功或其他状态)的任何触发器都不会触发。

  • 同样,如果工作流程中的某个作业或爬网程序具有触发器,而该触发器依赖于工作流程内外部的作业或爬网程序完成(成功或其他状态),则如果作业或爬网程序是从工作流程内部启动的,只有工作流程内部的触发器在作业或爬网程序完成时触发。