在 AWS Glue 控制台上使用爬网程序 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

在 AWS Glue 控制台上使用爬网程序

爬网程序访问您的数据存储,提取元数据并在 AWS Glue 数据目录中创建表定义。AWS Glue 控制台中的 Crawlers (爬网程序) 选项卡列出了您创建的所有爬网程序。此列表显示上次运行的爬网程序的状态和指标。

使用控制台添加爬网程序

  1. 登录 AWS 管理控制台,并通过以下网址打开 AWS Glue控制台:https://console.amazonaws.cn/glue/。在导航窗格中选择 Crawlers (爬网程序)

  2. 选择 Add crawler (添加爬网程序),然后按照 Add crawler (添加爬网程序) 向导中的说明进行操作。

    注意

    要获取有关添加爬网程序的分步指导,请在导航窗格中的教程下选择添加爬网程序。您也可以使用 Add crawler (添加爬网程序) 向导来创建和修改 IAM 角色,该角色附加了包括 Amazon Simple Storage Service (Amazon S3) 数据存储的权限的策略。

    (可选)您可以使用 Tag key (标签键) 和可选的 Tag value (标签值) 来标记爬网程序。创建之后,标签键处于只读状态。对某些资源使用标签可帮助您整理和标识资源。有关更多信息,请参阅AWS Glue 中的 AWS 标签

    (可选)您可以向爬网程序添加安全配置来指定静态加密选项。

当爬网程序运行时,提供的 IAM 角色必须具有访问已爬网数据存储的权限。对于 Amazon S3 数据存储,您可以使用 AWS Glue 控制台创建或添加一个类似于以下的策略:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:GetObject", "s3:PutObject" ], "Resource": [ "arn:aws:s3:::bucket/object*" ] } ] }

如果爬网程序读取 KMS 加密的 Amazon S3 数据,则 IAM 角色必须具有 KMS 密钥的解密权限。有关更多信息,请参阅步骤 2:为 AWS Glue 创建 IAM 角色

对于 Amazon DynamoDB 数据存储,您可以使用 AWS Glue 控制台创建或添加一个类似于以下的策略:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "dynamodb:DescribeTable", "dynamodb:Scan" ], "Resource": [ "arn:aws:dynamodb:region:account-id:table/table-name*" ] } ] }

对于 Amazon S3 数据存储,排除模式是相对于包含路径而言的。有关 glob 模式的更多信息,请参阅我可以爬取哪些数据存储?

当您对 JDBC 数据存储进行爬网时,连接是必需的。有关更多信息,请参阅 添加 AWS Glue 连接。排除路径与包含路径是相对的。例如,要排除 JDBC 数据存储中的一个表,请在排除路径中键入该表的名称。

当您网络爬取 DynamoDB 表时,可以在您的账户内从 DynamoDB 表的列表中选择一个表名。

查看爬网程序结果

要查看爬网程序的结果,请在列表中找到爬网程序名称并选择 Logs (日志) 链接。此链接会将您带到 CloudWatch Logs,您可以在其中查看有关在 AWS Glue 数据目录 中创建了哪些表和遇到的任何错误的详细信息。您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关如何更改保留期的更多信息,请参阅更改 CloudWatch Logs 中的日志数据保留

要查看爬网程序的详细信息,请在列表中选择爬网程序名称。爬网程序详细信息包括您在使用 Add crawler (添加爬网程序) 向导创建爬网程序时所定义的信息。当爬网程序运行完成后,可在导航窗格中选择 Tables (表) 来查看爬网程序在您指定的数据库中创建的表。

注意

爬网程序代入您在定义它时指定的 IAM 角色的权限。此 IAM 角色必须有权从您的数据存储中提取数据并将其写入Data Catalog。AWS Glue 控制台仅列出已为 AWS Glue 委托人服务附加信任策略的 IAM 角色。从控制台中,您还可以创建具有 IAM 策略的 IAM 角色,该策略允许访问爬网程序所访问的 Amazon S3 数据存储。有关为 AWS Glue 提供角色的更多信息,请参阅Identity-Based Policies

以下是有关上次运行的爬网程序的一些重要的属性和指标:

名称

当您创建爬网程序时,您必须为其指定一个唯一名称。

计划

您可以选择按需运行爬网程序或选择具有计划的频率。有关安排爬网程序的更多信息,请参阅计划爬网程序

状态

爬网程序状态可以为:准备就绪、正在启动、正在停止、已安排或计划已暂停。正在运行的爬网程序从正在启动前进到正在停止。您可以恢复或暂停附加到爬网程序的计划。

日志

来自上次运行的爬网程序的任何可用日志的链接。

上次运行时

爬网程序上次运行所用的时间量。

平均运行时

爬网程序自创建后运行所用的平均时间量。

已更新的表

AWS Glue 数据目录中由最近一次运行的爬网程序更新的表的数量。

已添加的表

由最近一次运行的爬网程序添加到 AWS Glue 数据目录中的表的数量。