AmazonGlue 蓝图类参考参考 - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AmazonGlue 蓝图类参考参考

库适用于的AmazonGlue 蓝图定义了在工作流布局脚本中使用的三个类:JobCrawler, 和Workflow

Job 类

这些区域有:Job类表示一个AmazonGlue 附 ETL 工作。

强制构造函数参数

以下是Job类。

参数名 类型 描述
Name str 要分配给作业的名称。AmazonGlue 将随机生成的后缀添加到名称中,以区分作业与其他蓝图运行创建的作业。
Role str 执行时应担任的角色的 Amazon 资源名称 (ARN)。
Command dict Job 命令,如JobCommand 结构在 API 文档中。

可选构造函数参数

以下是Job类。

参数名 类型 描述
DependsOn dict 作业所依赖的工作流实体的列表。有关更多信息,请参阅使用 DependsOn 参数
WaitForDependencies str 指示作业是否应等到全部实体在执行之前或直到任何完成。有关更多信息,请参阅使用等待依赖关系参数。如果作业仅依赖于一个实体,则省略。
(Job 属性) - 中列出的任何作业属性Job 结构中的AmazonGlue API 文档(除了CreatedOnLastModifiedOn)。

Crawler 类

这些区域有:Crawler类表示一个AmazonGlue 履带。

强制构造函数参数

以下是Crawler类。

参数名 类型 描述
Name str 要分配给爬网程序的名称。AmazonGlue 将随机生成的后缀添加到名称中,以区分 Crawler 与其他蓝图运行创建的后缀。
Role str 爬网程序运行时应担任的角色的 ARN。
Targets dict 要爬网的目标的集合。Targets类构造函数参数定义在CrawlerTargets 结构在 API 文档中。全部Targets构造函数参数是可选的,但必须至少传递一个。

可选构造函数参数

以下是Crawler类。

参数名 类型 描述
DependsOn dict Crawler 所依赖的工作流实体列表。有关更多信息,请参阅使用 DependsOn 参数
WaitForDependencies str 指示 Crawler 是否应等到全部实体,它依赖于在运行之前完成或直到任何完成。有关更多信息,请参阅使用等待依赖关系参数。如果 Crawler 仅依赖于一个实体,则省略。
(爬虫属性) - 中列出的任何爬网程序属性Crawler 结构中的AmazonGlue API 文档,具有以下异常:
  • State

  • CrawlElapsedTime

  • CreationTime

  • LastUpdated

  • LastCrawl

  • Version

工作流程类

这些区域有:Workflow类表示一个AmazonGlue 工作流程。工作流布局脚本返回Workflow对象。AmazonGlue 创建基于此对象的工作流。

强制构造函数参数

以下是Workflow类。

参数名 类型 描述
Name str 要分配给工作流程的名称。
Entities Entities 要包含在工作流中的实体(作业和爬虫程序)的集合。这些区域有:Entities类构造函数接受Jobs参数,这是一个Job对象和Crawlers参数,这是一个Crawler对象。

可选构造函数参数

以下是Workflow类。

参数名 类型 描述
Description str 请参阅 工作流程结构
DefaultRunProperties dict 请参阅 工作流程结构
OnSchedule str Acron表达式。

类方法

所有三个类都包括以下方法。

验证 ()

验证对象的属性,如果发现错误,则输出消息并退出。如果没有错误,则不生成输出。对于Workflow类,会在工作流中的每个实体上调用自己。

to_json ()

序列化对象为 JSON。也调用validate()。对于Workflow类中,JSON 对象包含作业和 Crawler 列表,以及由作业和 Crawler 依赖关系规范生成的触发器列表。