用于在 Amazon Glue 中添加新分区的增量爬取 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

用于在 Amazon Glue 中添加新分区的增量爬取

爬网程序提供了添加新分区的选项,从而使具有稳定表架构的增量数据集可以更快地爬取。典型用例是针对计划的爬网程序,在每次爬取期间都会添加新的分区。启用此选项后,它将先对目标数据集运行一次完整的爬取,以使爬网程序能够记录初始架构和分区结构。在重新爬取期间,只有当架构兼容时,新分区才会添加到现有表中。首次爬网运行后,不会对架构进行任何更改,也不会向数据目录中添加任何新表。

在设置 Amazon S3 数据源时,您可以使用此选项。您可以在 CreateCrawler API 中将带有 RecrawlBehaviorRecrawlPolicy 设置为“Crawl_New_Folders”,或在控制台中将后续爬网程序运行设置为仅爬取新的子文件夹

继续 爬网程序如何确定何时创建分区? 中的示例,下图显示已添加三月份的文件。


          下图显示已添加三月份的文件。

如果您将 RecrawlBehavior 设置为“Crawl_New_Folders”选项,则爬取 month=Mar

注释和限制

启用此选项后,您无法在编辑爬网程序时更改 Amazon S3 目标数据存储。此选项会影响某些爬网程序配置设置。启用后,它会将爬网程序的更新行为和删除行为强制为 LOG。这意味着:

  • 如果它发现架构不兼容的对象,Crawler 将不会在数据目录中添加这些对象,而是将此详细信息作为日志添加到 Logs 中。 CloudWatch

  • 它不会更新 Data Catalog 中的已删除对象。

有关更多信息,请参阅 设置爬网程序配置选项