View a markdown version of this page

为 Data Catalog 表设置 Amazon S3 事件通知的爬网程序 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

为 Data Catalog 表设置 Amazon S3 事件通知的爬网程序

当您有 Data Catalog 表时,请使用 Amazon Glue 控制台设置 Amazon S3 事件通知的爬网程序:

  1. 设置爬网程序属性。有关更多信息,请参阅在 Amazon Glue 控制台上设置爬网程序配置选项

  2. 数据来源配置部分中,系统将询问您的数据是否已映射到 Amazon Glue 表?

    选择 Yes(是),从 Data Catalog 中选择现有表作为数据来源。

  3. Glue tables(Glue 表)部分中,选择 Add tables(添加表)。

    选中“是”选项以使用现有 Glue 表的数据来源配置页面。
  4. Add table(添加表)模式中,配置数据库和表:

    • Network connection(网络连接)(可选):选择 Add new connection(添加新连接)。

    • Database(数据库):在 Data Catalog 中选择数据库。

    • Tables(表):在 Data Catalog 中选择该数据库中的一个或多个表。

    • Subsequent crawler runs(后续爬网程序运行):选择 Crawl based on events(基于事件爬取)以对爬网程序使用 Amazon S3 事件通知。

    • Include SQS ARN(包含 SQS ARN):指定数据存储参数,包括有效的 SQS ARN。(例如,arn:aws:sqs:region:account:sqs)。

    • Include dead-letter SQS ARN(包含死信 SQS ARN)(可选):指定有效的 Amazon 死信 SQS ARN。(例如,arn:aws:sqs:region:account:deadLetterQueue)。

    • 选择确认

    显示数据库选择、表选择和基于事件的爬取选项的“添加 Glue 表”对话框。