教程:Amazon Glue Studio 入门 - Amazon Glue Studio
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:Amazon Glue Studio 入门

您可以使用 Amazon Glue Studio 创建从数据源中提取结构化或半结构化数据的任务,执行该数据的转换,并将结果集保存在数据目标中。

在本教程中,您将使用 Amazon S3 作为源和目标,在 Amazon Glue Studio 中创建一个任务。完成这些步骤后,您将了解如何创建可视化任务以及如何编辑节点,即可视化任务编辑器中的组件构建块。

您将了解如何执行以下操作:

  • 将数据源节点配置为数据来源。在本教程中,您要将数据来源设置为 Amazon S3。

  • 应用和编辑转换节点。在本教程中,您要将 Trans ApplyMapping form 应用于任务。

  • 配置数据目标节点。在本教程中,您要将数据目标设置为 Amazon S3。

  • 查看和编辑任务脚本。

  • 运行任务并查看任务的运行详细信息。

先决条件

本教程包含以下先决条件:

  • 您已经有一个 Amazon 账户。

  • 您拥有 Amazon Glue Studio 的访问权限。

  • 您的账户拥有为 Amazon S3 数据源和数据目标创建和运行任务所需的所有权限。有关更多信息,请参阅设置 Amazon Glue Studio

启动 Amazon CloudFormation 堆栈

Amazon CloudFormation 堆栈拥有完成本教程所需的所有资源。

  1. 启动以下 Amazon CloudFormation 堆栈,以通过单击按钮为本教程创建资源,然后按照步骤完成该过程。

  2. 命名Amazon CloudFormation堆栈 CreateJob-教程

  3. 然后,选择“I acknowledge that Amazon CloudFormation might create IAM resources with custom names option.”(我确认可能使用自定义名称选项创建 IAM 资源。)。

  4. 选择 Create stack(创建堆栈)。

启动此堆栈将创建 Amazon 资源。Amazon CloudFormation 输出中显示的以下资源是您在接下来步骤中需要的资源:

  • 密钥 - 描述

  • Amazon Glue Studio角色 - 要运行 Amazon Glue 任务的 IAM 角色

  • Amazon Glue StudioAmazon S3 存储桶 - 用于存储与博客相关的文件的 Amazon S3 存储桶的名称

  • Amazon Glue StudioTicketsYYZDB – Amazon Glue 数据目录数据库

  • Amazon Glue StudioTableTickets— 用作源的数据目录表

  • Amazon Glue StudioTableTrials— 用作源的数据目录表

  • Amazon Glue StudioParkingTicketCount — 要用作目标的数据目录表

步骤 1:开始任务创建过程

在此任务中,您可以选择使用模板开始创建任务。

借助模板开始创建任务
  1. 登录 Amazon Web Services Management Console,然后通过以下网址打开 Amazon Glue Studio 控制台:https://console.aws.amazon.com/gluestudio/

  2. 在 Amazon Glue Studio 登录页面,选择 Create and manage jobs (创建和管理任务) 标题下的 View jobs (查看任务)

    
            屏幕截图显示了 Amazon Glue Studio 登录页面,并突出显示 Create and manage jobs(创建和管理任务)部分。
  3. Jobs(任务)页面上的 Create job(创建任务)标题下,默认情况下将选择以下选项:

    • Visual with a source and target(具有源和目标的视觉对象)

    • 对于 Source(源):Amazon Simple Storage Service

    • 对于 Target(目标):Amazon Simple Storage Service

  4. 选择 Create(创建)按钮,开始任务创建过程。

此时会打开任务编辑页面,其中显示了一个简单的三节点任务图。


        屏幕截图显示了包含各种组件的任务编辑页面。
  • A - 可视化任务编辑器画布。您可以在此处添加节点以创建任务。

  • B - 可视化任务由画布上的节点表示。选择节点后,它将用蓝线突出显示。

  • C - 节点面板包含多个选项卡:“Node properties”(节点属性)、“Output schema”(输出架构)和“Data preview”(数据预览)。选择节点后,将显示节点面板,并显示该节点独有的新选项卡,以进行其他配置。有关更多信息,请参阅任务编辑器功能

  • D- 任务编辑器选项卡功能区。默认情况下,已选择 Visual(可视化)。您还可以选择:Script(脚本)、Job details(任务详细信息)、Runs(运行)和 Schedules(计划)。Runs(运行)和 Schedules(计划)在任务运行后可用。有关更多信息,请参阅在 Amazon Glue Studio 中编辑 ETL 任务

  • E - 节点工具栏提供以下操作:在任务编辑画布中添加源节点、转换节点和目标节点、撤消和重做操作、移除节点,以及放大/缩小。有关更多信息,请参阅在 Amazon Glue Studio 中编辑 ETL 任务

  • F - 默认情况下,任务将被命名为“Untitled job”(无标题任务)。单击文本框可将任务名称更改为唯一名称。

  • G - 任务编辑器操作菜单允许您保存、运行和删除任务。运行任务时,“Actions”(操作)下拉菜单还会提供其他选项。

步骤 2:编辑任务图中的数据源节点

选择任务图中的 Data source - S3 bucket(数据来源 – S3 存储桶)节点来编辑数据来源属性。

编辑数据源节点
  1. 默认情况下,将显示 Data source properties - Amazon S3(数据来源属性 - Amazon S3)选项卡。

    
              屏幕截图显示了“Data source properties - Amazon S3”(数据来源属性 - Amazon S3)选项卡和字段。
  2. 默认情况下,已为 Amazon S3 源类型选择 Data Catalog table(数据目录表)选项。这是因为源类型由 Node properties(节点属性)选项卡中的“Node type”(节点类型)确定。默认情况下,“Node type”(节点类型)为 Amazon S3。

  3. 对于 Database(数据库),从 Amazon Glue Data Catalog 内可用数据库列表中选择 yyz-tickets 数据库。此数据库是在本教程前面部分当您启动 Amazon CloudFormation 堆栈时为您创建的。

  4. 对于 Table(表),单击下拉菜单,然后从 Amazon Glue Data Catalog 中选择 tickets(票证)。此表是在本教程前面部分当您启动 Amazon CloudFormation 堆栈时为您创建的。

    为数据源节点提供所需信息后,会有绿色复选标记显示在任务图中的节点上。

  5. (可选)选择节点详细信息窗格中的 Output schema(输出架构)选项卡,查看数据架构。

  6. (可选)在节点详细信息窗格的 Node properties(节点属性)选项卡上,对于 Name(名称),为此任务输入一个唯一名称。

    
            屏幕截图显示了“Node properties”(节点属性)选项卡。

    使用输入的值作为任务图中数据源节点的标注。如果为任务中的节点使用唯一名称,则更易于在任务图中识别每个节点以及选择父节点。

    您还可以设置节点类型。更改节点类型将更改“Data source properties”(数据来源属性)选项卡中的多个字段。

步骤 3:编辑任务的转换节点

在转换节点中,您可以指定想要如何修改数据的原始格式。ApplyMapping转换支持您重命名数据属性键、更改数据类型,以及从数据集中删除列。

编辑 Trans form- ApplyMapping 节点时,您的数据的原始架构将显示在节点详细信息面板的源键列中。这是根据源数据获取并存储在 Amazon Glue Data Catalog 中的数据属性键名称(列名)。

Target key (目标键) 列会显示将在数据目标中显示的键名称。您可以使用此字段更改输出中的数据属性键名称。Data type (数据类型) 列会显示键的数据类型,并允许您将其更改为目标的不同数据类型。Drop (删除) 列中包含一个复选框。此复选框允许您选择一个字段,从而将其从目标架构中删除。

编辑转换节点
  1. 选择任务图中的 Transf orm- ApplyMapping 节点来编辑数据转换属性。

  2. 在节点详细信息窗格的 Node properties(节点属性)选项卡上,查看信息。

    将节点的名称更改为 Ticket_Mapping

  3. 选择节点详细信息窗格中的 Transform(转换)选项卡。

    
            屏幕截图显示了“Apply mapping transform”(应用映射转换)选项卡和字段。
  4. 通过选中 Drop(删除)列中每个键的复选框,选择删除键。

    • location1

    • location2

    • location3

    • location4

    • province

  5. 对于源键 officer,将 Target key(目标键)值更改为 officer_name

    ticket_numberset_fine_amount 键的数据类型更改为 float(浮点数)。更改数据类型时,您必须验证目标是否支持该数据类型。

  6. (可选)选择节点详细信息窗格中的 Output schema(输出架构)选项卡,查看已修改的架构。

请注意,任务图中的 Transform - Apply Mapping 节点现已具有绿色复选标记,表示节点已受编辑并具有所需的全部信息。

步骤 4:编辑任务的数据目标节点

数据目标节点确定转换后输出的发送位置。该位置可以是 Amazon S3 存储桶、数据目录表或连接器和连接。如果选择数据目录表,则数据将写入与该表关联的位置。例如,如果您在数据目录中使用爬网程序为 JDBC 目标创建表,则数据将写入该 JDBC 表。

编辑数据目标节点
  1. 选择任务图中的 Data target - S3 bucket(数据目标 – S3 存储桶)节点来编辑数据目标属性。

  2. 在节点详细信息窗格的右侧,选择 Node properties(节点属性)选项卡。对于 Name(名称),为该节点输入一个唯一名称。

  3. 选择 Data target properties - S3(数据目标属性 – S3)选项卡。

    
            屏幕截图显示了“Data target properties - Amazon S3”(数据目标属性 - Amazon S3)选项卡和可用字段。
  4. 对于每个字段,进行以下选择。

    有关可用选项的更多信息,请参阅数据目标选项概览

    • Format(格式):Parquet

    • Compression Type(压缩类型):GZIP

    • S3 Target Location(S3 目标位置):选择 Browse S3(浏览 S3)按钮,以查看您有权访问的 Amazon S3 存储桶。选择 Amazon S3 存储桶作为目标。

    • Data Catalog update options(数据目录更新选项):请勿更新数据目录

步骤 5:指定任务详细信息并保存任务

在保存和运行提取、转换和加载(ETL)任务之前,您必须首先输入有关任务本身的其他信息。

指定任务详细信息并保存任务
  1. 选择 Job details(任务详细信息)选项卡。

  2. 输入任务的名称。提供最大长度为 255 个字符的 UTF-8 字符串。

    (可选)输入任务的描述。描述长度最多为 2048 个字符。

  3. 对于 IAM role(IAM 角色),从可用角色列表中选择 Amazon Glue StudioRole

    注意

    Amazon Identity and Access Management (IAM) 角色用于对运行任务所用的资源进行访问权限授权。您只能选择您的账户中已存在的角色。您选择的角色必须具有访问 Amazon S3 源、目标、临时目录、脚本以及任务所使用的任何库的权限,以及对 Amazon Glue 服务资源的访问权限。

    有关创建角色的步骤,请参阅创建 IAM 角色 为Amazon GlueAmazon Glue《开发人员指南》

    您可能需要向此角色添加对目标 Amazon S3 存储桶的访问权限。

    如果您有许多角色可供选择,可以开始在 IAM role(IAM 角色)搜索字段中输入角色名称的部分名称,而具有匹配文本字符串的角色将会显示出来。例如,您可以在搜索字段中输入“tutorial”以查找所有名称中包含 tutorial(不区分大小写)的角色。

  4. 对于其余字段,使用原定设置值。

  5. 在页面右上角,选择 Save(保存)。

    您应在页面顶部看到一条表明任务已成功保存的通知。

    
            屏幕截图显示了单击“Save”(保存)按钮时的成功确认消息。
注意

如果您没有看到表明任务已成功保存的通知,则很有可能缺少阻止任务保存的信息。

  • 在可视化编辑器中查看任务,然后选择没有绿色复选标记的任意节点。

  • 如果可视化编辑器窗格上方的任何选项卡都有标注,请选择该选项卡并查找以红色突出显示的任何字段。

步骤 6:运行任务

既然任务已保存,则您可以运行该任务。

  1. 选择页面顶部的 Run (运行) 按钮。然后,您应看到一条表明任务已成功启动的通知。您还可以选择 Runs(运行)选项卡,然后选择 Run jobs(运行任务)。

    
            屏幕截图显示了单击“Run”(运行)按钮时的成功确认消息。
  2. 要查看任务运行详细信息,请单击 Run Details(运行详细信息)通知中的链接,或者选择 Runs(运行)选项卡,以查看任务的运行状态。

  3. 要在 Runs(运行)选项卡中查看任务运行详细信息,请查看最近任务运行的任务运行详细信息卡片。有关任务运行信息的更多信息,请参阅 查看最近任务运行的信息

祝贺您完成本教程!您已经学会了如何创建可视化任务、编辑节点、检查任务脚本、保存和运行任务,以及查看运行详细信息。

后续步骤

启动任务运行后,您可能想尝试一些以下任务: