中的蓝图概述Amazon连接词 - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

中的蓝图概述Amazon连接词

这些区域有:AmazonGlue 蓝图功能为预览版AmazonGlue 附和可能会发生变化。

AmazonGlue 蓝图提供了一种创建和共享的方法AmazonGlue 工作流程。当有一个复杂的 ETL 流程可用于类似的用例时,而不是创建Amazon针对每个用例的 Glue 工作流,您可以创建一个蓝图。

蓝图指定要包含在工作流中的作业和爬虫程序,并指定工作流用户在运行蓝图以创建工作流时提供的参数。通过使用参数,单个蓝图可以为各种类似的用例生成工作流。有关工作流的详细信息,请参阅Amazon Glue 中的工作流程概述

以下是蓝图的示例使用案例:

  • 要对现有的数据集进行分区。蓝图的输入参数为 Amazon Simple Storage Service (Amazon S3) 源路径以及分区列表。

  • 您希望将 Amazon DynamoDB 表快照快照到 SQL 数据存储(如 Amazon Redshift)中。蓝图的输入参数包括 DynamoDB 表名和AmazonGlue 连接,指定 Amazon Redshift 集群和目标数据库。

  • 您希望将多个 Amazon S3 路径中的 CSV 数据转换为镶木地板。您想要AmazonGlue 合工作流程,为每个路径包含单独的爬虫和作业。输入参数是AmazonGlue 数据目录和以逗号分隔的 Amazon S3 路径列表。请注意,在这种情况下,工作流创建的爬虫程序和作业的数量是可变的。

蓝图组件

蓝图是包含以下组件的 ZIP 存档:

  • Python 布局生成器脚本

    包含指定工作流的函数布局— 要为工作流创建的爬虫程序和作业、作业和 Crawler 属性以及作业和爬虫程序之间的依赖关系。该函数接受蓝图参数并返回一个工作流结构(JSON 对象)AmazonGlue 用于生成工作流程。由于您使用 Python 脚本生成工作流,因此您可以添加适合您的用例的自己逻辑。

  • 配置文件

    指定生成工作流布局的 Python 函数的完全限定名称。还指定脚本使用的所有蓝图参数的名称、数据类型和其他属性。

  • (可选)ETL 脚本和支持文件

    作为高级用例,您可以参数化作业所使用的 ETL 脚本的位置。您可以在 ZIP 存档中包含作业脚本文件,并为要将脚本复制到的 Amazon S3 位置指定蓝图参数。布局生成器脚本可以将 ETL 脚本复制到指定位置,并将该位置指定为作业脚本位置属性。您还可以包含任何库或其他支持文件,前提是您的脚本处理这些文件。


   标记为蓝图的框包含两个较小的框,一个标记为 Python 脚本,另一个标记为 Config 文件。

蓝图运行

从蓝图创建工作流时,AmazonGlue 运行蓝图,启动一个异步过程,以创建工作流程封装的作业、爬虫程序和触发器。AmazonGlue 使用蓝图运行来协调工作流及其组件的创建。您可以通过查看蓝图运行状态来查看创建过程的状态。蓝图运行还存储您为蓝图参数提供的值。


   标记为 “蓝图运行” 的框包含标记为 “工作流” 和 “参数值” 的图标。

您可以使用AmazonGlue 控制台或Amazon命令行界面 (AmazonCLI)。查看工作流或排除工作流故障时,始终可以返回蓝图运行以查看用于创建工作流的蓝图参数值。

蓝图的生命周期

蓝图的开发、测试和注册AmazonGlue,并运行创建工作流程。蓝图生命周期中通常涉及三个角色。

角色 任务
AmazonGlue 开发者
  • 写入工作流布局脚本并创建配置文件。

  • 在本地使用AmazonGlue 服务。

  • 创建脚本、配置文件和支持文件的 ZIP 存档,并将归档文件发布到 Amazon S3 中的某个位置。

  • 向 Amazon S3 存储桶添加存储桶策略,该策略将存储桶对象的读取权限授予AmazonGlue 管理员的Amazonaccount.

  • 将 IAM 对 Amazon S3 中 ZIP 档案的读取权限授予AmazonGlue 管理员。

AmazonGlue 管理员
  • 寄存蓝图与AmazonGlue。AmazonGlue 会将 ZIP 档案的副本复制到保留的 Amazon S3 位置。

  • 向数据分析师授予有关蓝图的 IAM 权限。

DATA 分析员
  • 运行蓝图以创建工作流,并提供蓝图参数值。检查蓝图运行状态以确保已成功生成工作流和工作流组件。

  • 运行工作流并对其进行故障排除。在运行工作流之前,可以通过查看AmazonGlue 控制台。