在 Amazon Glue 控制台上使用爬网程序 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Glue 控制台上使用爬网程序

爬网程序访问您的数据存储,提取元数据并在 Amazon Glue Data Catalog 中创建表定义。Amazon Glue 控制台中的 Crawlers (爬网程序) 窗格列出了您创建的所有爬网程序。此列表显示上次运行的爬网程序的状态和指标。

注意

如果您选择引入自己的 JDBC 驱动程序版本,则 Amazon Glue 爬网程序将消耗 Amazon Glue 作业 和 Amazon S3 存储桶中的资源,以确保您提供的驱动程序在您的环境中运行。额外的资源使用量将反映在您的账户中。此外,提供自己的 JDBC 驱动程序并不意味着爬网程序能够利用该驱动程序的所有功能。驱动程序仅限于添加 Amazon Glue 连接中描述的属性。

使用控制台添加爬网程序
  1. 登录 Amazon Web Services 管理控制台,然后通过以下网址打开 Amazon Glue 控制台:https://console.aws.amazon.com/glue/。在导航窗格中选择 Crawlers (爬网程序)

  2. 选择添加爬网程序,然后按照添加爬网程序向导中的说明进行操作。该向导将引导您完成以下步骤。

    1. 设置爬网程序属性。为您的爬网程序输入名称和描述(可选)。

      (可选)您可以使用 Tag key (标签键) 和可选的 Tag value (标签值) 来标记爬网程序。创建之后,标签键处于只读状态。对某些资源使用标签可帮助您整理和标识资源。有关更多信息,请参阅 Amazon Glue 中的 Amazon 标签

    2. 选择数据来源和分类器。在数据来源配置中,选择“尚未”或“是”来回答“您的数据是否映射到表 Amazon Glue ? 默认情况下已选择“尚未”。

      如果您的数据已映射到 Amazon Glue 表,请选择添加数据来源。有关更多信息,请参阅 添加 Amazon Glue 连接

      添加数据来源窗口中,选择您的数据来源,然后为您的数据来源选择相应的选项。

      (可选)如果选择 JDBC 作为数据来源,则在指定存储驱动程序信息的连接访问权限时,可以使用自己的 JDBC 驱动程序。

    3. 配置安全设置。选择一个现有 IAM 角色或新建一个新 IAM 角色。

      注意

      要添加自己的 JDBC 驱动程序,需要添加其他权限。有关更多信息,请参阅

      • 授予以下作业操作的权限:CreateJobDeleteJobGetJobGetJobRunStartJobRun

      • 授予 Amazon S3 操作的权限:s3:DeleteObjectss3:GetObjects3:ListBuckets3:PutObject

        注意

        如果禁用 Amazon S3 存储桶策略,则不需要使用 s3:ListBucket

      • 在 Amazon S3 策略中授予服务主体访问存储桶/文件夹的权限。

      Amazon S3 策略示例:

      { "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:ListBucket", "s3:DeleteObject" ], "Resource": [ "arn:aws:s3:::bucket-name/driver-parent-folder/driver.jar", "arn:aws:s3:::bucket-name" ] } ] }

      Amazon Glue创建以下文件夹(_crawler_glue_job_crawler,级别与 Amazon S3 存储桶中的 JDBC 驱动程序相同)。例如,如果驱动程序路径为 <s3-path/driver_folder/driver.jar>,则将创建以下文件夹(如果这些文件夹尚不存在):

      • <s3-path/driver_folder/_crawler>

      • <s3-path/driver_folder/_glue_job_crawler>

      (可选)您可以向爬网程序添加安全配置来指定静态加密选项。

    4. 设置输出和计划。您可以选择目标数据库,为表名添加前缀,并设置最大表阈值(可选)。

      选择爬网程序计划时,请选择频率。

    5. 审核和创建 选择编辑可对向导中的任何步骤进行更改。完成后,选择创建爬网程序

当您网络爬取 DynamoDB 表时,可以在您的账户内从 DynamoDB 表的列表中选择一个表名。

提示

有关配置爬网程序的更多信息,请参阅爬网程序属性

查看爬网程序结果和详细信息

爬网程序成功运行后,它会在数据目录中创建表定义。在导航窗格中选择 Tables (表) 来查看爬网程序在您指定的数据库中创建的表。

您可以按如下方式查看与爬网程序本身相关的信息:

  • Amazon Glue 控制台上的 Crawlers (爬网程序) 页面显示爬网程序的以下属性:

    属性 描述
    名称

    当您创建爬网程序时,您必须为其指定一个唯一名称。

    状态

    爬网程序状态可以为:准备就绪、正在启动、正在停止、已安排或计划已暂停。正在运行的爬网程序从正在启动前进到正在停止。您可以恢复或暂停附加到爬网程序的计划。

    计划

    您可以选择按需运行爬网程序或选择具有计划的频率。有关安排爬网程序的更多信息,请参阅计划爬网程序

    上次运行

    爬网程序上次运行的日期和时间。

    日志

    来自上次运行的爬网程序的任何可用日志的链接。

    上次运行后的表格变更

    Amazon Glue Data Catalog中由最近一次运行的爬网程序更新的表的数量。

  • 要查看爬网程序的历史记录,请在导航窗格中选择 Crawlers(爬网程序)以查看您创建的爬网程序。从可用爬网程序列表中选择一个爬网程序。您可以在 Crawler runs(爬网程序运行)选项卡中查看爬网程序属性和爬网程序历史记录。

    “Crawler runs”(爬网程序运行)显示每次爬网程序运行时的相关信息,包括 Start time (UTC) [开始时间(UTC)]、End time (UTC) [结束时间(UTC)]、Duration(持续时间)、Status(状态)、DPU hours(DPU 小时)和 Table changes(表格变更)。

    “爬网程序运行”选项卡将仅显示自爬网程序历史记录功能启动之日以来发生的爬取操作,并且最长仅保留 12 个月的爬取操作。较早的爬取结果将不会被返回。

  • 要查看其他信息,请在爬网程序详细信息页面中选择一个选项卡。每个选项卡都将显示与爬网程序相关的信息。

    • Schedule(计划):为爬网程序创建的所有计划都将在此处显示。

    • Data sources(数据来源):爬网程序扫描的所有数据来源都将在此处显示。

    • Classifiers(分类器):分配给爬网程序的所有分类器都将在此处显示。

    • Tags(标记):创建并分配给 Amazon 资源的所有标记都将在此处显示。