教程: 添加 AWS Glue 爬网器 - AWS Glue Studio
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

教程: 添加 AWS Glue 爬网器

对于此 AWS Glue 情景,您需要分析主要航空公司的抵达数据,以计算每月出发机场的受欢迎程度。您有以CSV格式存储的2016年航班数据 Amazon S3. 在转换和分析数据之前,请先将其元数据编入 AWS Glue 数据目录.

在本教程中,让我们添加一个爬网器,从这些飞行日志中推断出元数据 Amazon S3 并在您的 Data Catalog.

Prerequisites

本教程假设您有一个 AWS 账户和访问权限 AWS Glue.

第1步: 添加爬网器

使用以下步骤配置和运行从存储在中的CSV文件提取元数据的爬网程序 Amazon S3.

  1. 在 AWS Glue 服务控制台,在左侧菜单中,选择 爬网器.

  2. 在爬网网页上,选择 添加爬网器. 这将启动一系列页面,提示您输入爬网程序详细信息。

  3. 在“爬网程序名称”字段中,输入 Flights Data Crawler,并选择 下一步.

    爬行器调用分类器来推断数据的模式。本教程默认使用CSV的内置分类器。

  4. 对于爬网器源类型,请选择 数据存储 并选择 下一步.

  5. 现在,让我们把爬网器指向您的数据。在 添加数据仓库 选择 Amazon S3 数据仓库。本教程不使用连接,因此,如果连接字段可见,则将其留空。

    对于选项 爬取数据,选择 另一个帐户中的指定路径. 然后,对于Include路径,输入爬网员可以找到航班数据的路径,即 s3://crawler-public-us-east-1/flight/2016/csv。输入路径后,此字段的标题将更改为 包括路径。选择下一步

  6. 您可以使用单个爬网器爬网多个数据仓库。但是,在本教程中,我们只使用单个数据仓库,因此请选择 ,然后选择 下一步.

  7. 爬网程序需要访问数据仓库并在 AWS Glue 数据目录. 要配置这些权限,请选择 创建 IAM 角色. 的 IAM 角色名称以 AWSGlueServiceRole-在字段中,输入角色名称的最后部分。输入 CrawlerTutorial,然后选择 下一步.

    注意

    要创建 IAM 角色,您的AWS用户必须 CreateRole, CreatePolicy,和 AttachRolePolicy 权限。

    向导创建 IAM 角色已命名 AWSGlueServiceRole-CrawlerTutorial,附加AWS管理策略 AWSGlueServiceRole 并添加允许读取 Amazon S3 位置 s3://crawler-public-us-east-1/flight/2016/csv.

  8. 为爬网器创建计划。对于 频率,选择 按需运行,然后选择 下一步.

  9. 爬网员在 Data Catalog. 表格包含在数据库的 Data Catalog. 首先,选择 添加数据库 创建数据库。在弹出窗口中,输入 test-flights-db ,然后选择 创建.

    接下来,输入 flights添加到表的前缀. 使用其余选项的默认值,然后选择 下一步.

  10. 请验证您在 添加爬网器 向导。如果您发现任何错误,可以选择 后退 返回上一页并进行更改。

    查看信息后,请选择 完成 以制作爬网器。

第2步: 运行爬网器

创建爬网器后,向导会将您发送到“爬网器”视图页面。由于您使用按需计划创建爬网器,因此您可以选择运行爬网器。

  1. 此页面顶部附近的横幅让您知道爬网器已创建,并询问您是否现在运行它。选择 现在运行? 以运行爬网器。

    横幅更改为显示爬网器的“正在尝试运行”和“正在运行”消息。爬网器开始运行后,横幅消失,爬网器显示屏更新以显示爬网器的“正在启动”状态。一分钟后,您可以单击刷新图标以更新表中显示的爬网器的状态。

  2. 当爬网器完成时,会出现一个新的横幅,描述爬网器所做的更改。您可以选择 试飞-db 链接以查看 Data Catalog 对象。

第3步: 查看 AWS Glue 数据目录 对象

爬网器在源位置读取数据并在 Data Catalog. 表是代表数据的元数据定义,包括其框架。表中的 Data Catalog 不包含数据。相反,您可以在作业定义中将这些表用作源或目标。

  1. 在左侧导航中, 数据目录,选择 数据库. 在这里,您可以查看 flights-db 由爬网器创建的数据库。

  2. 在左侧导航中, 数据目录 及以下 数据库,选择 表格. 在这里,您可以查看 flightscsv 爬网器创建的表。如果选择表名称,则可以查看表设置、参数和属性。在此视图中向下滚动,您可以查看框架,即有关表的列和数据类型的信息。

  3. 如果您选择 查看分区 在表格视图页面上,您可以看到为数据创建的分区。第一列是分区键。