开发蓝图概述 - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

开发蓝图概述

开发过程的第一步是确定将受益于蓝图的常见用例。典型的用例涉及一个反复出现的 ETL 问题,您认为应该以一般方式解决这个问题。接下来,设计一个实现通用用例的蓝图,并定义蓝图输入参数,这些参数一起可以从通用用例中定义特定用例。

蓝图由包含蓝图参数配置文件的项目和定义布局要生成的工作流。布局定义了作业和爬虫程序(或实体)来创建。

您不会在布局脚本中直接指定任何触发器。相反,您可以编写代码来指定脚本创建的作业和爬虫程序之间的依赖关系。AmazonGlue 根据您的依赖规范生成触发器。布局脚本的输出是一个工作流对象,其中包含所有工作流实体的规范。

您可以使用以下AmazonGlue 蓝图库:

  • awsglue.blueprint.base_resource— 库使用的基本资源库。

  • awsglue.blueprint.workflow— 用于定义Workflow类。

  • awsglue.blueprint.job— 用于定义Job类。

  • awsglue.blueprint.crawler— 用于定义Crawler类。

唯一支持用于布局生成的其他库是可用于 Python 外壳的库。

在发布蓝图之前,您可以使用蓝图库中定义的方法在本地测试蓝图。

当您准备好将蓝图提供给数据分析人员时,您可以将脚本、参数配置文件和任何支持文件(如附加脚本和库)打包到单个可部署资产中。然后,您将资产上传到 Amazon S3,并要求管理员将其注册到AmazonGlue。

有关更多示例蓝图项目的信息,请参阅示例蓝图项目蓝图示例