在 AWS Glue 控制台上使用爬网程序 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 AWS Glue 控制台上使用爬网程序

爬网程序访问您的数据存储,提取元数据并在 AWS Glue 数据目录中创建表定义。这些区域有:爬网程序窗格中 AWS Glue 列出您创建的所有爬网程序。此列表显示上次运行的爬网程序的状态和指标。

使用控制台添加爬网程序

  1. 登录 Amazon Web Services vice 管理控制台,并通过打开 AWS Glue 控制台。https://console.aws.amazon.com/glue/。在导航窗格中选择 Crawlers (爬网程序)

  2. 选择 Add crawler (添加爬网程序),然后按照 Add crawler (添加爬网程序) 向导中的说明进行操作。

    注意

    要获取有关添加爬网程序的分步指导,请在导航窗格中的教程下选择添加爬网程序。您也可以使用添加爬网程序向导来创建和修改 IAM 角色,该角色附加了包括 Amazon Simple Storage Service (Amazon S3) 数据存储的权限的策略。

    (可选)您可以使用 Tag key (标签键) 和可选的 Tag value (标签值) 来标记爬网程序。创建之后,标签键处于只读状态。对某些资源使用标签可帮助您整理和标识资源。有关更多信息,请参阅AWS Glue 中的 AWS 标签

    (可选)您可以向爬网程序添加安全配置来指定静态加密选项。

当爬网程序运行时,提供的 IAM 角色必须具有访问已爬网数据存储的权限。

当您对 JDBC 数据存储进行爬网时,连接是必需的。有关更多信息,请参阅添加 AWS Glue Connection Connection。排除路径与包含路径是相对的。例如,要排除 JDBC 数据存储中的一个表,请在排除路径中键入该表的名称。

当您网络爬取 DynamoDB 表时,可以在您的账户内从 DynamoDB 表的列表中选择一个表名。

提示

有关配置爬网程序的更多信息,请参阅。爬网程序属性

查看爬网程序结果和详细信息

Crawler 成功运行后,它会在数据目录中创建表定义。选择来查看爬网程序在您指定的数据库中创建的表。

您可以按如下方式查看与 Crawler 本身相关的信息:

  • 这些区域有:爬网程序页面显示爬网程序的以下属性:

    属性 描述
    名称

    当您创建爬网程序时,您必须为其指定一个唯一名称。

    Schedule

    您可以选择按需运行爬网程序或选择具有计划的频率。有关安排爬网程序的更多信息,请参阅计划爬网程序

    状态

    爬网程序状态可以为:准备就绪、正在启动、正在停止、已安排或计划已暂停。正在运行的爬网程序从正在启动前进到正在停止。您可以恢复或暂停附加到爬网程序的计划。

    日志

    来自上次运行的爬网程序的任何可用日志的链接。

    上次运行时

    爬网程序上次运行所用的时间量。

    平均运行时

    爬网程序自创建后运行所用的平均时间量。

    已更新的表

    AWS Glue 数据目录中由最近一次运行的爬网程序更新的表的数量。

    已添加的表

    由最近一次运行的爬网程序添加到 AWS Glue 数据目录中的表的数量。

  • 要查看 Crawler 的操作和日志消息,请选择爬网程序以查看您创建的爬网程序。在列表中找到爬网程序名称并选择日志链接。此链接会将您带到 CloudWatch Logs,您可以在其中查看有关在 AWS Glue 数据目录中创建了哪些表和遇到的任何错误的详细信息。

    您可以在 CloudWatch 控制台中管理日志保留期。默认日志保留为 Never Expire。有关如何更改保留期的更多信息,请参阅更改 CloudWatch Logs 中的日志数据保留

    有关查看日志信息的更多信息,请参阅。自动监控工具中的查询 AWS CloudTrail 日志中的Amazon Athena 用户指南。另外,请参阅博客。使用 Athena 轻松查询 AWS 服务日志,了解有关如何将 Athena 胶水服务日志 (AGsLog) Python 库与 AWS Glue ETL 作业结合使用的信息,以允许一个用于处理日志数据的通用框架。

  • 要查看爬网程序的详细信息,请在列表中选择爬网程序名称。爬网程序详细信息包括您在使用 Add crawler (添加爬网程序) 向导创建爬网程序时所定义的信息。