本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
教程:Amazon Glue Studio 入门
您可以使用 Amazon Glue Studio 创建从数据源中提取结构化或半结构化数据的任务,执行该数据的转换,并将结果集保存在数据目标中。
在本教程中,您将使用 Amazon S3 作为源和目标,在 Amazon Glue Studio 中创建一个任务。完成这些步骤后,您将了解如何创建可视化任务以及如何编辑节点,即可视化任务编辑器中的组件构建块。
您将了解如何执行以下操作:
-
将数据源节点配置为数据来源。在本教程中,您要将数据来源设置为 Amazon S3。
-
应用和编辑转换节点。在本教程中,您要将 Trans ApplyMapping form 应用于任务。
-
配置数据目标节点。在本教程中,您要将数据目标设置为 Amazon S3。
-
查看和编辑任务脚本。
-
运行任务并查看任务的运行详细信息。
先决条件
本教程包含以下先决条件:
-
您已经有一个 Amazon 账户。
-
您拥有 Amazon Glue Studio 的访问权限。
-
您的账户拥有为 Amazon S3 数据源和数据目标创建和运行任务所需的所有权限。有关更多信息,请参阅设置 Amazon Glue Studio。
启动 Amazon CloudFormation 堆栈
Amazon CloudFormation 堆栈拥有完成本教程所需的所有资源。
启动此堆栈将创建 Amazon 资源。Amazon CloudFormation 输出中显示的以下资源是您在接下来步骤中需要的资源:
-
密钥 - 描述
-
Amazon Glue Studio角色 - 要运行 Amazon Glue 任务的 IAM 角色
-
Amazon Glue StudioAmazon S3 存储桶 - 用于存储与博客相关的文件的 Amazon S3 存储桶的名称
-
Amazon Glue StudioTicketsYYZDB – Amazon Glue 数据目录数据库
-
Amazon Glue StudioTableTickets— 用作源的数据目录表
-
Amazon Glue StudioTableTrials— 用作源的数据目录表
-
Amazon Glue StudioParkingTicketCount — 要用作目标的数据目录表
步骤 1:开始任务创建过程
在此任务中,您可以选择使用模板开始创建任务。
借助模板开始创建任务
登录 Amazon Web Services Management Console,然后通过以下网址打开 Amazon Glue Studio 控制台:https://console.aws.amazon.com/gluestudio/
。 -
在 Amazon Glue Studio 登录页面,选择 Create and manage jobs (创建和管理任务) 标题下的 View jobs (查看任务)。
-
在 Jobs(任务)页面上的 Create job(创建任务)标题下,默认情况下将选择以下选项:
-
Visual with a source and target(具有源和目标的视觉对象)
-
对于 Source(源):Amazon Simple Storage Service
-
对于 Target(目标):Amazon Simple Storage Service
-
-
选择 Create(创建)按钮,开始任务创建过程。
此时会打开任务编辑页面,其中显示了一个简单的三节点任务图。

-
A - 可视化任务编辑器画布。您可以在此处添加节点以创建任务。
-
B - 可视化任务由画布上的节点表示。选择节点后,它将用蓝线突出显示。
-
C - 节点面板包含多个选项卡:“Node properties”(节点属性)、“Output schema”(输出架构)和“Data preview”(数据预览)。选择节点后,将显示节点面板,并显示该节点独有的新选项卡,以进行其他配置。有关更多信息,请参阅任务编辑器功能。
-
D- 任务编辑器选项卡功能区。默认情况下,已选择 Visual(可视化)。您还可以选择:Script(脚本)、Job details(任务详细信息)、Runs(运行)和 Schedules(计划)。Runs(运行)和 Schedules(计划)在任务运行后可用。有关更多信息,请参阅在 Amazon Glue Studio 中编辑 ETL 任务。
-
E - 节点工具栏提供以下操作:在任务编辑画布中添加源节点、转换节点和目标节点、撤消和重做操作、移除节点,以及放大/缩小。有关更多信息,请参阅在 Amazon Glue Studio 中编辑 ETL 任务。
-
F - 默认情况下,任务将被命名为“Untitled job”(无标题任务)。单击文本框可将任务名称更改为唯一名称。
-
G - 任务编辑器操作菜单允许您保存、运行和删除任务。运行任务时,“Actions”(操作)下拉菜单还会提供其他选项。
步骤 2:编辑任务图中的数据源节点
选择任务图中的 Data source - S3 bucket(数据来源 – S3 存储桶)节点来编辑数据来源属性。
编辑数据源节点
-
默认情况下,将显示 Data source properties - Amazon S3(数据来源属性 - Amazon S3)选项卡。
-
默认情况下,已为 Amazon S3 源类型选择 Data Catalog table(数据目录表)选项。这是因为源类型由 Node properties(节点属性)选项卡中的“Node type”(节点类型)确定。默认情况下,“Node type”(节点类型)为 Amazon S3。
-
对于 Database(数据库),从 Amazon Glue Data Catalog 内可用数据库列表中选择 yyz-tickets 数据库。此数据库是在本教程前面部分当您启动 Amazon CloudFormation 堆栈时为您创建的。
-
对于 Table(表),单击下拉菜单,然后从 Amazon Glue Data Catalog 中选择 tickets(票证)。此表是在本教程前面部分当您启动 Amazon CloudFormation 堆栈时为您创建的。
为数据源节点提供所需信息后,会有绿色复选标记显示在任务图中的节点上。
-
(可选)选择节点详细信息窗格中的 Output schema(输出架构)选项卡,查看数据架构。
-
(可选)在节点详细信息窗格的 Node properties(节点属性)选项卡上,对于 Name(名称),为此任务输入一个唯一名称。
使用输入的值作为任务图中数据源节点的标注。如果为任务中的节点使用唯一名称,则更易于在任务图中识别每个节点以及选择父节点。
您还可以设置节点类型。更改节点类型将更改“Data source properties”(数据来源属性)选项卡中的多个字段。
步骤 3:编辑任务的转换节点
在转换节点中,您可以指定想要如何修改数据的原始格式。ApplyMapping转换支持您重命名数据属性键、更改数据类型,以及从数据集中删除列。
编辑 Trans form- ApplyMapping 节点时,您的数据的原始架构将显示在节点详细信息面板的源键列中。这是根据源数据获取并存储在 Amazon Glue Data Catalog 中的数据属性键名称(列名)。
Target key (目标键) 列会显示将在数据目标中显示的键名称。您可以使用此字段更改输出中的数据属性键名称。Data type (数据类型) 列会显示键的数据类型,并允许您将其更改为目标的不同数据类型。Drop (删除) 列中包含一个复选框。此复选框允许您选择一个字段,从而将其从目标架构中删除。
编辑转换节点
-
选择任务图中的 Transf orm- ApplyMapping 节点来编辑数据转换属性。
-
在节点详细信息窗格的 Node properties(节点属性)选项卡上,查看信息。
将节点的名称更改为 Ticket_Mapping。
-
选择节点详细信息窗格中的 Transform(转换)选项卡。
-
通过选中 Drop(删除)列中每个键的复选框,选择删除键。
-
location1
-
location2
-
location3
-
location4
-
province
-
-
对于源键
officer
,将 Target key(目标键)值更改为officer_name
。将
ticket_number
和set_fine_amount
键的数据类型更改为 float(浮点数)。更改数据类型时,您必须验证目标是否支持该数据类型。 -
(可选)选择节点详细信息窗格中的 Output schema(输出架构)选项卡,查看已修改的架构。
请注意,任务图中的 Transform - Apply Mapping 节点现已具有绿色复选标记,表示节点已受编辑并具有所需的全部信息。
步骤 4:编辑任务的数据目标节点
数据目标节点确定转换后输出的发送位置。该位置可以是 Amazon S3 存储桶、数据目录表或连接器和连接。如果选择数据目录表,则数据将写入与该表关联的位置。例如,如果您在数据目录中使用爬网程序为 JDBC 目标创建表,则数据将写入该 JDBC 表。
编辑数据目标节点
-
选择任务图中的 Data target - S3 bucket(数据目标 – S3 存储桶)节点来编辑数据目标属性。
-
在节点详细信息窗格的右侧,选择 Node properties(节点属性)选项卡。对于 Name(名称),为该节点输入一个唯一名称。
-
选择 Data target properties - S3(数据目标属性 – S3)选项卡。
-
对于每个字段,进行以下选择。
有关可用选项的更多信息,请参阅数据目标选项概览。
-
Format(格式):Parquet
-
Compression Type(压缩类型):GZIP
-
S3 Target Location(S3 目标位置):选择 Browse S3(浏览 S3)按钮,以查看您有权访问的 Amazon S3 存储桶。选择 Amazon S3 存储桶作为目标。
-
Data Catalog update options(数据目录更新选项):请勿更新数据目录
-
步骤 5:指定任务详细信息并保存任务
在保存和运行提取、转换和加载(ETL)任务之前,您必须首先输入有关任务本身的其他信息。
指定任务详细信息并保存任务
-
选择 Job details(任务详细信息)选项卡。
-
输入任务的名称。提供最大长度为 255 个字符的 UTF-8 字符串。
(可选)输入任务的描述。描述长度最多为 2048 个字符。
-
对于 IAM role(IAM 角色),从可用角色列表中选择
Amazon Glue StudioRole
。注意
Amazon Identity and Access Management (IAM) 角色用于对运行任务所用的资源进行访问权限授权。您只能选择您的账户中已存在的角色。您选择的角色必须具有访问 Amazon S3 源、目标、临时目录、脚本以及任务所使用的任何库的权限,以及对 Amazon Glue 服务资源的访问权限。
有关创建角色的步骤,请参阅创建 IAM 角色 为Amazon Glue 于 Amazon Glue《开发人员指南》。
您可能需要向此角色添加对目标 Amazon S3 存储桶的访问权限。
如果您有许多角色可供选择,可以开始在 IAM role(IAM 角色)搜索字段中输入角色名称的部分名称,而具有匹配文本字符串的角色将会显示出来。例如,您可以在搜索字段中输入“tutorial”以查找所有名称中包含
tutorial
(不区分大小写)的角色。 -
对于其余字段,使用原定设置值。
-
在页面右上角,选择 Save(保存)。
您应在页面顶部看到一条表明任务已成功保存的通知。
注意
如果您没有看到表明任务已成功保存的通知,则很有可能缺少阻止任务保存的信息。
-
在可视化编辑器中查看任务,然后选择没有绿色复选标记的任意节点。
-
如果可视化编辑器窗格上方的任何选项卡都有标注,请选择该选项卡并查找以红色突出显示的任何字段。
步骤 6:运行任务
既然任务已保存,则您可以运行该任务。
-
选择页面顶部的 Run (运行) 按钮。然后,您应看到一条表明任务已成功启动的通知。您还可以选择 Runs(运行)选项卡,然后选择 Run jobs(运行任务)。
-
要查看任务运行详细信息,请单击 Run Details(运行详细信息)通知中的链接,或者选择 Runs(运行)选项卡,以查看任务的运行状态。
-
要在 Runs(运行)选项卡中查看任务运行详细信息,请查看最近任务运行的任务运行详细信息卡片。有关任务运行信息的更多信息,请参阅 查看最近任务运行的信息。
祝贺您完成本教程!您已经学会了如何创建可视化任务、编辑节点、检查任务脚本、保存和运行任务,以及查看运行详细信息。
后续步骤
启动任务运行后,您可能想尝试一些以下任务:
-
查看任务监控控制面板 – 访问任务监控控制面板。
-
尝试对数据进行不同转换 – 编辑 Amazon Glue 托管数据转换节点。
-
查看您的账户中存在的角色 – 查看您的作业。
-
使用基于时间的计划运行任务 – 计划任务运行。