教程:开始使用AmazonGlue 工作室 - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:开始使用AmazonGlue 工作室

您可以使用AmazonGlue Studio 创建从数据源中提取结构化或半结构化数据的作业,执行该数据的转换,并将结果集保存在数据目标中。

Prerequisites

本教程包含以下先决条件:

  • 您有Amazonaccount.

  • 您可以访问AmazonGlue 工作室。

  • 您的账户拥有为 Amazon S3 数据源和数据目标创建和运行作业所需的所有权限。

  • 您已创建一个Amazon Identity and Access Management角色以供作业使用。您还可以选择作业的 IAM 角色,其中包括对您的所有数据源、数据目标、临时目录、脚本以及作业所使用的任务的任务的权限。

  • 以下组件存在于Amazon:

    • 这些区域有:Flights Data Crawler爬网程序

    • 这些区域有:flights-dbdatabase

    • 这些区域有:flightscsvtable

    • IAM 角色AWSGlueServiceRole-CrawlerTutorial

    要创建这些组件,您可以完成服务教程添加爬网程序,它将填充Amazon Glue Data Catalog与必要的对象。本教程还创建具备必要权限的 IAM 角色。您可以在Amazon GlueService 页面,位于https://console.aws.amazon.com/glue/。本教程位于左侧导航窗格中,位于教程。或者,您可以使用本教程的文档版本,教程:添加Amazon Glue爬网程序

第 1 步:启动作业创建过程

在此任务中,您可以选择使用模板开始创建作业。

从模板开始,创建作业

  1. 登录到Amazon Web Services Management Console,然后打开AmazonGlue 工作室控制台https://console.aws.amazon.com/gluestudio/

  2. 在存储库的AmazonGlue 工作室登录页面,选择查看作业标题下创建和管理作业

  3. 在存储库的作业页面,标题下创建作业中,选择已添加到图形中的源和目标选项。然后,选择S3(对于 )S3(对于 )目标

  4. 选择Create按钮以开始作业创建过程。

此时将打开作业编辑页面,显示一个简单的三节点作业图。

第 2 步:编辑作业图中的数据源节点

选择数据源 — S3 存储桶节点来编辑数据源属性。

编辑数据源节点

  1. 在存储库的节点属性选项卡,对于名称中,输入此作业唯一的名称。

    输入的值用作作业图中数据源节点的标签。如果为作业中的节点使用唯一名称,则在作业图中标识每个节点以及选择父节点会更容易。在本教程中,请输入名称S3 Flight Data

  2. 选择数据源属性-S3选项卡中的节点详细信息面板。

  3. 选择“数据目录” 表选项,用于 S3 源类型。

  4. 适用于数据库中,选择飞行数据库数据库中的可用数据库列表Amazon Glue Data Catalog。

  5. 适用于,输入flight在搜索字段中,然后选择航班 CSV表中的Amazon Glue Data Catalog。

  6. (可选)选择输出架构选项卡以查看数据架构。

  7. (可选)配置节点属性和数据源属性后,可以通过选择数据预览选项卡中的节点详细信息面板。首次为任务中的任何节点选择此选项卡时,系统会提示您提供 IAM 角色以访问数据。使用此功能会产生相关的成本,并且只要您提供 IAM 角色,就会立即开始计费。

    默认情况下,选择前 5 列以便在数据预览选项卡。要查看其他列,请选择预览 65 个字段中的 5 个字段。例如,您可以取消选择前 5 列,然后选择fl_dateairline_idfl_numtail_num, 和origin_airport_id。滚动到列列列表末尾,然后选择“确认”以保存您的选择。

为数据源节点提供所需信息后,作业图中的节点上将显示绿色复选标记。

第 3 步:编辑作业的变换节点

在转换节点中,您可以指定如何修改数据的原始格式。一个ApplyMapping转换使您可以重命名数据属性键、更改数据类型以及从数据集中删除列。

当您编辑Transform ApplyMapping节点时,数据的原始模式将显示在源密钥交换列中的 “节点详细信息” 面板中。这是从源数据获取并存储在Amazon Glue Data Catalog。

这些区域有:目标密钥交换列显示将显示在数据目标中的键名称。您可以使用此字段更改输出中的 data 属性键名称。这些区域有:数据类型列显示键的数据类型,并允许您将其更改为目标的不同数据类型。这些区域有:Drop列中包含复选框。此框允许您选择一个字段以将其从目标方案中删除。

编辑变换节点

  1. 选择Transform ApplyMapping节点来编辑数据转换属性。

  2. 在节点详细信息面板的节点属性选项卡上,查看信息。

    如果需要,您可以更改此节点的名称。

  3. 选择转换选项卡中的节点详细信息面板。

  4. 选择删除键quarterday_of_week,方法是选中Drop列中的每个键。

  5. 对于显示day_of_month中的源密钥交换列中,更改目标密钥交换值到day

    更改monthday的键到tinyint。这些区域有:tinyint数据类型使用 1 字节存储存储整数,值范围从 0 到 255。更改数据类型时,必须验证目标是否支持该数据类型。

  6. (可选)选择输出架构选项卡以查看修改后的架构。

  7. (可选)配置节点属性和变换属性后,可以通过选择数据预览选项卡中的节点详细信息面板。首次为任务中的任何节点选择此选项卡时,系统会提示您提供 IAM 角色以访问数据。使用此功能会产生相关的成本,并且只要您提供 IAM 角色,就会立即开始计费。

    默认情况下,为数据预览选择前 5 列,但这些列不再与在数据源节点上查看的列相同,因为我们删除了两列并重命名了第三列。

请注意,Transform — 应用映射节点现在具有绿色复选标记,表示节点已经编辑并具有所有必需的信息。

第 4 步:编辑作业的数据目标节点

数据目标节点确定转换后输出的发送位置。该位置可以是 Amazon S3 存储桶、数据目录表或连接器和连接。如果选择 “数据目录” 表,则数据将写入与该表关联的位置。例如,如果您使用爬网程序在 “数据目录” 中为 JDBC 目标创建表,则数据将写入该 JDBC 表。

编辑数据目标节点

  1. 选择数据目标 — S3 存储桶节点来编辑数据目标属性。

  2. 在右侧的节点详细信息面板中,选择节点属性选项卡。适用于名称中,输入节点的唯一名称,例如Revised Flight Data

  3. 选择数据目标属性-S3选项卡。

  4. 适用于格式中,选择JSON

    适用于压缩类型,请保留默认值

    对于S3 目标位置中,选择浏览 S3按钮查看您有权访问的 Amazon S3 存储桶,然后选择一个作为目标目标。

    对于“数据目录” 更新选项,请保留默认设置请不要更新数据目录

    有关可用选项的更多信息,请参阅。数据目标选项概述

第 5 步:查看作业脚本

配置作业中的所有节点后,AmazonGlue Studio 生成一个脚本,作业使用该脚本来读取、转换和写入目标位置中的数据。

要查看脚本,请选择Script选项卡,位于作业编辑窗格顶部。请不要单击Edit Script按钮,因为这会使您退出可视编辑器模式。

如果您单击Edit Script按钮并确认您的选择,您可以重新加载页面(无需先保存作业),以重置Script选项卡。

第 6 步:指定作业详细信息并保存作业

您必须首先输入有关作业本身的附加信息,然后才能保存和运行提取、转换和加载 (ETL) 作业。

指定作业详细信息并保存作业

  1. 选择Job 详细信息选项卡。

  2. 输入作业的名称,例如FlightDataETL。提供最大长度为 255 个字符的 UTF-8 字符串。

    您可以根据需要输入作业的说明。

  3. 对于IAM 角色中,选择AWSGlueServiceRole-CrawlerTutorial从可用角色列表中。您可能需要向此角色添加对目标 Amazon S3 存储桶的访问权限。

    如果您有许多角色可供选择,则可以开始在IAM 角色搜索字段,并显示具有匹配文本字符串的角色。例如,可以输入tutorial在搜索字段中查找所有具有tutorial(不区分大小写)。

    这些区域有:Amazon Identity and Access Management(IAM) 角色用于授权对运行作业所用的资源的访问权限。您只能选择您的账户中已存在的角色。您选择的角色必须具有访问您的 Amazon S3 源、目标、临时目录、脚本以及作业所使用的任何库的权限,以及对Amazon Glue服务资源。

    有关创建角色的步骤,请参阅为 创建 IAM 角色Amazon Glue中的Amazon Glue开发人员指南

  4. 对于其余字段,使用默认值。

  5. 选择Save在页面右上角。

    您应该在页面顶部看到作业已成功保存的通知。

如果您没有看到任务已成功保存的通知,则很有可能缺少阻止保存作业的信息。

  • 在可视编辑器中查看作业,然后选择任何没有绿色复选标记的节点。

  • 如果可视编辑器窗格上方的任何选项卡都有标注,请选择该选项卡并查找以红色突出显示的任何字段。

步骤 7:运行作业

既然作业已保存,您可以运行作业。选择运行按钮。然后,您应该看到作业已成功启动的通知。

您可以选择通知中的链接运行详细信息,或选择运行选项卡以查看作业的运行状态。

在存储库的运行选项卡上,每次最近运行的作业都有一个卡片,其中包含有关该作业运行的信息。

有关作业运行信息的更多信息,请参阅。查看最近作业运行的信息

后续步骤

启动作业运行后,您可能想尝试以下的一些任务: