Amazon Glue 中的工作流程概述 - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Glue 中的工作流程概述

这些区域有:Amazon Glue蓝图功能为预览版,Amazon Glue,可能会发生变化。

在 Amazon Glue 中,可以使用工作流程创建和可视化涉及多个爬网程序、作业和触发器的复杂的提取、转换和加载 (ETL) 活动。每个工作流程都管理其所有作业和爬网程序的执行和监控。当工作流程运行每个组件时,它会记录执行进度和状态。这将为您提供大型任务的概述和每个步骤的详细信息。Amazon Glue 控制台以图表形式提供工作流程的可视化表示。

您可以从创建工作流程Amazon Glue蓝图,也可以一次手动构建组件工作流,使用Amazon Web Services Management Console或AmazonGlue API。有关蓝图的更多信息,请参阅 中的蓝图概述Amazon连接词

工作流程中的事件触发器可以由作业或爬网程序触发,也可以启动作业和爬网程序。因此,您可以创建相互依赖的作业和爬网程序的大型链。

要在工作流程运行中共享和管理状态,您可以定义默认工作流程运行属性。这些属性是名称/值对,可用于工作流程中的所有作业。使用AmazonGlue API,作业可以检索工作流程运行属性,并为工作流程中后面的作业修改它们。

下图显示一个非常基本的工作流程的图表,该图表为Amazon Glue控制台。您的工作流程可能拥有几十个组件。


            显示工作流程的 Graph (图表)) 选项卡的控制台屏幕截图。图表包含五个图标,它们分别表示 1 个计划触发器、2 个作业、1 个事件成功触发器以及 1 个更新架构的爬网程序。

此工作流程由计划触发器启动,Month-close1,它开始了两个工作,De-duplicateFix phone numbers。在成功完成这两个作业后,事件触发器Fix/De-dupe succeeded,启动一个爬虫程序,Update schema

静态和动态工作流程视图

对于每个工作流程,存在静态视图动态视图 的概念。静态视图表示工作流程的设计。动态视图是一个运行时视图,包含每个作业和爬网程序的最新运行信息。运行信息包含成功状态和错误详细信息。

当工作流程正在运行时,控制台将显示一个动态视图,它以图形方式指示作业已完成且尚未运行。您还可以使用检索正在运行的工作流程的动态视图AmazonGlue API。有关更多信息,请参阅 使用 查询工作流程AmazonGlue API