为 Data Catalog 表设置 Amazon S3 事件通知的爬网程序
当您有 Data Catalog 表时,请使用 Amazon Glue 控制台设置 Amazon S3 事件通知的爬网程序:
-
设置爬网程序属性。有关更多信息,请参阅在 Amazon Glue 控制台上设置爬网程序配置选项。
-
在数据来源配置部分中,系统将询问您的数据是否已映射到 Amazon Glue 表?
选择 Yes(是),从 Data Catalog 中选择现有表作为数据来源。
-
在 Glue tables(Glue 表)部分中,选择 Add tables(添加表)。
-
在 Add table(添加表)模式中,配置数据库和表:
-
Network connection(网络连接)(可选):选择 Add new connection(添加新连接)。
-
Database(数据库):在 Data Catalog 中选择数据库。
-
Tables(表):在 Data Catalog 中选择该数据库中的一个或多个表。
-
Subsequent crawler runs(后续爬网程序运行):选择 Crawl based on events(基于事件爬取)以对爬网程序使用 Amazon S3 事件通知。
-
Include SQS ARN(包含 SQS ARN):指定数据存储参数,包括有效的 SQS ARN。(例如,
arn:aws:sqs:region:account:sqs
)。 -
Include dead-letter SQS ARN(包含死信 SQS ARN)(可选):指定有效的 Amazon 死信 SQS ARN。(例如,
arn:aws:sqs:region:account:deadLetterQueue
)。 -
选择确认。
-