为 Data Catalog 表设置 Amazon S3 事件通知的爬网程序 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

为 Data Catalog 表设置 Amazon S3 事件通知的爬网程序

当您有 Data Catalog 表时,请使用 Amazon Glue 控制台设置 Amazon S3 事件通知的爬网程序:

  1. 设置爬网程序属性。有关更多信息,请参阅在 Amazon Glue 控制台上设置爬网程序配置选项

  2. 数据来源配置部分中,系统将询问您的数据是否已映射到 Amazon Glue 表?

    选择 Yes(是),从 Data Catalog 中选择现有表作为数据来源。

  3. Glue tables(Glue 表)部分中,选择 Add tables(添加表)。

    Data source configuration interface with options to select existing Glue tables or add new ones.
  4. Add table(添加表)模式中,配置数据库和表:

    • Network connection(网络连接)(可选):选择 Add new connection(添加新连接)。

    • Database(数据库):在 Data Catalog 中选择数据库。

    • Tables(表):在 Data Catalog 中选择该数据库中的一个或多个表。

    • Subsequent crawler runs(后续爬网程序运行):选择 Crawl based on events(基于事件爬取)以对爬网程序使用 Amazon S3 事件通知。

    • Include SQS ARN(包含 SQS ARN):指定数据存储参数,包括有效的 SQS ARN。(例如,arn:aws:sqs:region:account:sqs)。

    • Include dead-letter SQS ARN(包含死信 SQS ARN)(可选):指定有效的 Amazon 死信 SQS ARN。(例如,arn:aws:sqs:region:account:deadLetterQueue)。

    • 选择确认

    Add Glue tables dialog with network, database, tables, and crawler options.