教程:添加Amazon Glue爬网程序 - AmazonGlue 工作室
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程:添加Amazon Glue爬网程序

对于这个Amazon Glue场景中,您需要分析主要航空公司的抵达数据,以计算每月出发机场的受欢迎程度。您有 2016 年的航班数据以 CSV 格式存储在 Amazon S3 中。在转换和分析数据之前,请将其元数据编录在Amazon Glue Data Catalog。

在本教程中,让我们添加一个 Crawler,该 Crawler 从 Amazon S3 中的这些飞行日志推断元数据,并在您的数据目录中创建一个表。

Prerequisites

本教程假定Amazon帐户和访问Amazon Glue。

第 1 步:添加爬网程序

使用以下步骤配置和运行从存储在 Amazon S3 中的 CSV 文件中提取元数据的爬虫程序。

创建读取 Amazon S3 上存储的文件的爬虫程序

  1. 在存储库的Amazon Glue服务控制台,在左侧菜单中,选择爬网程序

  2. 在爬网程序页面上,选择添加爬网程序。这将启动一系列页面,提示您输入 Crawler 详细信息。

  3. 在爬网程序名称字段中,输入Flights Data Crawler,然后选择下一步

    爬网程序调用分类器来推断数据的架构。本教程默认使用 CSV 的内置分类器。

  4. 对于爬网程序的源类型,选择数据存储并选择下一步

  5. 现在,让我们将爬虫指向您的数据。在存储库的添加数据存储页面上,选择 Amazon S3 数据存储。本教程不使用连接,因此保留Connection字段为空(如果可见)。

    对于选项爬取数据中,选择另一个帐户中的指定路径。然后,对于包含路径中,输入爬虫可以找到航班数据的路径,即s3://crawler-public-us-east-1/flight/2016/csv。输入路径后,此字段的标题将更改为包含路径。选择 Next

  6. 您可以使用单个爬网程序来爬取多个数据存储。但是,在本教程中,我们只使用单个数据存储,因此选择,然后选择下一步

  7. Crawler 需要权限才能访问数据存储并在Amazon Glue Data Catalog。要配置这些权限,请选择创建 IAM 角色。IAM 角色名称以AWSGlueServiceRole-,然后在字段中输入角色名称的最后一部分。EnterCrawlerTutorial,然后选择下一步

    注意

    要创建 IAM 角色,您的 AWS 用户必须具有CreateRoleCreatePolicy, 和AttachRolePolicy权限。

    向导将创建命名为AWSGlueServiceRole-CrawlerTutorial,附加Amazon管理的策略AWSGlueServiceRole添加到此角色,并添加一个内联策略,允许对 Amazon S3 位置进行读取访问s3://crawler-public-us-east-1/flight/2016/csv

  8. 创建爬网程序的计划。适用于Frequency中,选择按需运行,然后选择下一步

  9. 爬网程序在数据目录中创建表。表包含在数据目录中的数据库中。首先,选择添加数据库创建数据库。在弹出窗口中,输入test-flights-db作为数据库名称,然后选择Create

    接下来,输入flights对于 来说为添加到表中的前缀。使用其余选项的默认值,然后选择下一步

  10. 验证您在添加爬网程序向导。如果您看到任何错误,您可以选择返回返回到上一页并进行更改。

    查看信息之后,选择Finish创建爬网程序。

第 2 步:运行爬网程序

创建 Crawler 后,向导会将您发送到 “Crawler” 视图页面。由于您使用按需计划创建 Crawler,因此您可以选择运行 Crawler。

运行爬网程序

  1. 此页面顶部附近的横幅可以让您知道 Crawler 已创建,并询问您是否要立即运行它。选择现在运行它?运行爬网程序。

    横幅更改为您的 Crawler 的 “尝试运行” 和 “正在运行” 消息。Crawler 开始运行后,横幅消失,爬虫显示将更新,以显示 Crawler 的状态为 “启动”。一分钟后,您可以单击 “刷新” 图标以更新表格中显示的 Crawler 的状态。

  2. Crawler 完成后,将出现一个新的横幅,描述 Crawler 所做的更改。可以选择测试飞行数据库链接以查看数据目录对象。

第 3 步:查看Amazon Glue Data Catalogobjects

Crawler 在源位置读取数据并在数据目录中创建表。表是表示您的数据(包括其架构)的元数据定义。数据目录中的表不包含数据。相反,您可以将这些表用作作业定义中的源或目标。

查看 Crawler 创建的数据目录对象

  1. 在左侧导航窗格中,在数据目录中,选择数据库。在这里,您可以查看flights-db由 Crawler 创建的数据库。

  2. 在左侧导航窗格中,在数据目录及下面数据库中,选择。在这里,您可以查看flightscsv表。如果选择表名称,则可以查看表设置、参数和属性。在此视图中向下滚动,您可以查看架构,这是有关表的列和数据类型的信息。

  3. 如果选择查看分区,您可以看到为数据创建的分区。第一列是分区键。