教程: AWS Glue Studio 入门 - AWS Glue Studio
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程: AWS Glue Studio 入门

您可以使用 AWS Glue Studio 创建从数据源提取结构化或半结构化数据的作业,执行该数据的转换,并将结果集保存在数据目标中。

Prerequisites

本教程包含以下先决条件:

  • 您有一个 AWS 帐户。

  • 您可以访问 AWS Glue Studio.

  • 您的帐户具有创建和运行作业的所有必要权限 Amazon S3 数据源和数据目标。

  • 您已经创建了 AWS Identity and Access Management 作业使用的角色。您也可以选择 IAM 作业角色,包括所有数据源、数据目标、临时目录、脚本和作业使用的任何库的权限。

  • 以下组件存在于 AWS:

    • Flights Data Crawler 爬网器

    • flights-db 数据库

    • flightscsv

    • 的 IAM 角色 AWSGlueServiceRole-CrawlerTutorial

    要创建这些组件,您可以完成服务教程 添加爬网器,填充 AWS Glue 数据目录 使用必要的对象。本教程还创建了一个 IAM 具有必要权限的角色。您可以在以下位置找到教程: AWS Glue 服务页面位于 https://console.amazonaws.cn/glue/. 教程位于左侧导航中,位于 教程. 或者,您可以使用本教程的文档版本, 教程: 添加 AWS Glue 爬网器.

第1步: 开始作业创建过程

在此任务中,您选择使用模板开始作业创建。

  1. 登录 AWS 管理控制台并通过以下网址打开 AWS Glue Studio 控制台:https://console.amazonaws.cn/gluestudio/

  2. 在 AWS Glue Studio 登录页面,选择 创建和管理作业.

  3. 管理作业 页面,在标题下 创建作业,选择 添加到图表的源和目标 选项。然后,选择 上3 用于 来源上3 用于 目标.

  4. 选择 创建 按钮,开始作业创建过程。

此时将打开作业编辑页面,并显示简单的三节点图。

第2步: 编辑作业图表中的数据源节点

选择 数据源-S3bucket 节点以编辑数据源属性。

  1. 节点属性 选项卡,用于 名称,请输入此作业唯一的名称。

    您输入的值用作图形中数据源节点的标签。如果您为作业中的节点使用唯一的名称,则更容易识别图表中的每个节点并选择父节点。在本教程中,输入 S3 Flight Data.

  2. 选择 数据源属性-S3 选项卡。

  3. 对于 数据库,选择 航班-db 数据库中的可用数据库列表, AWS Glue 数据目录.

  4. 对于 ,输入 flight 在搜索字段,然后选择 航班csv 表中的 AWS Glue 数据目录.

  5. 选择 输出模式 选项卡以查看数据架构。

第3步: 编辑作业的转换节点

转换节点用于指定您希望如何修改其原始格式的数据。一种 ApplyMapping 转换使您能够重命名数据属性键、更改数据类型以及从数据集中删除列。

当您编辑 转换- ApplyMapping 节点,您数据的原始框架显示在 来源关键字 节点详细信息面板中的列。这是从源数据获得并存储在 AWS Glue 数据目录.

目标键 列显示将显示在数据目标中的键名称。您可以使用此字段更改输出中的数据属性密钥名称。的 数据类型 列显示键的数据类型,并允许您将其更改为目标的不同数据类型。的 跌落 列包含复选框。此框允许您选择一个字段以将其从目标框架中丢弃。

  1. 选择 转换- ApplyMapping 节点以编辑数据转换属性。

  2. 在节点详细信息面板中,在 节点属性 选项卡,查看信息。

    如果需要,您可以更改此节点的名称。

  3. 选择 转型 选项卡。

  4. 选择放下按键 quarterday_of_week 通过选中 跌落 每个键的列。

  5. 对于显示 day_of_month来源关键字 列,更改 目标键 值到 day.

    更改的数据类型 monthday 键到 微细. 的 tinyint 数据类型使用1个存储字节存储整数,其值范围为0到255。更改数据类型时,您必须验证目标所支持的数据类型。

第4步: 编辑作业的数据目标节点

数据目标节点确定在何处发送经过变换的输出。位置可以是 Amazon S3 bucket或 Data Catalog 表。如果您选择了 Data Catalog 表,数据被写入到与该表关联的位置。例如,如果您使用爬网器在 Data Catalog 对于JDBC目标,数据被写入该JDBC表。

  1. 选择 数据目标-S3bucket 节点以编辑数据目标属性。

  2. 在右侧的节点详细信息面板中,选择 节点属性 选项卡。对于 名称,输入节点的唯一名称,例如 Revised Flight Data.

  3. 选择 数据目标属性-S3 选项卡。

  4. 对于 格式,选择 JSON(JSON).

    对于 压缩类型,保留默认值 .

    对于 S3目标位置,选择 浏览S3 按钮,查看 Amazon S3 存储桶,然后选择一个作为目标目的地。

    有关可用选项的更多信息,请参阅 配置数据目标节点 数据目标选项概述.

第5步: 查看作业脚本

在配置图形中的所有节点后, AWS Glue Studio 生成脚本,供作业用于读取、转换和写入目标位置中的数据。

要查看脚本,请选择 脚本 选项卡。

第6步: 指定作业详细信息并保存作业

在保存和运行提取、转换和加载(ETL)作业之前,必须首先输入有关作业本身的其他信息。

  1. 选择 作业详细信息 选项卡。

  2. 输入作业的名称–例如 FlightDataETL。提供最大长度为255个字符的UTF-8字符串。

    您可以选择输入作业的说明。

  3. 对于 IAM角色,选择 AWSGlueServiceRole-CrawlerTutorial 从可用角色列表中。

    如果您有许多角色可供选择,则可以开始在 IAM角色 搜索字段,将显示具有匹配文本字符串的角色。例如,你可以输入 tutorial 以查找所有角色 tutorial (不区分大小写)在名称中。

    的 AWS Identity and Access Management (人IAM)角色用于授权访问用于运行作业的资源。您只能选择帐户中已存在的角色。您选择的角色必须具有访问 Amazon S3 来源、目标、临时目录、脚本和作业使用的任何库,以及访问 AWS Glue 服务资源。

    有关创建角色的步骤,请参阅 为AWSGlue创建IAM角色.

  4. 对于其余字段,使用默认值。

  5. 选择 保存 位于页面右上角。

    您应该在页面顶部看到作业已成功保存的通知。

如果您没有看到作业保存成功的通知,则最有可能缺少阻止作业保存的信息。

  • 查看可视作业图形,并选择没有绿色复选标记的任何节点。

  • 如果图形窗格上方的任何选项卡有标注,请选择该选项卡并查找以红色突出显示的任何字段。

第8步: 运行作业

现在作业已保存,您可以运行作业。选择 运行 按钮。然后,您应该看到作业已成功启动的通知。

您可以选择通知中的链接 运行详细信息,或选择 运行详细信息 选项卡,以查看作业的运行状态。

运行详细信息 选项卡,每个最近运行的作业都有一个卡片,其中包含有关该作业运行的信息。

有关作业运行信息的更多信息,请参阅 查看最近作业运行的信息.

后续步骤

开始作业运行后,您可能需要尝试以下一些任务: