中的增量爬网程序Amazon Glue - Amazon连接词
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

中的增量爬网程序Amazon Glue

对于 Amazon Simple Storage Service (Amazon S3) 数据源,增量爬取仅爬取自上次爬网程序运行以来添加的文件夹。如果没有此选项,Crawler 将对整个数据集进行爬网。增量爬网可以大大节省时间和成本。要执行增量爬网,可以设置仅爬网新文件夹选项中的Amazon Glue控制台或设置RecrawlPolicy属性中的CreateCrawler请求。

增量爬网最适合具有稳定表架构的增量数据集。典型的用例是针对计划的爬虫程序,在每次爬网期间都会添加新的分区。继续使用爬网程序如何确定何时创建分区?,下图显示已添加 3 月份的文件。


          文件夹(矩形)层次结构与上一个图像中的相同,只是添加了一个三月的矩形,其中包含一个子文件夹,day=1。该子文件夹有四个文件。

如果您设置仅爬网新文件夹选项,只有新文件夹month=Mar被爬网。

增量爬网的注释和限制

请记住有关增量爬网的以下其他信息:

  • 增量爬网的最佳做法是首先对目标数据集运行完整爬网,以使 Crawler 能够记录初始架构和分区结构。

  • 启用此选项后,您无法在编辑爬网程序时更改 Amazon S3 目标数据存储。

  • 此选项会影响某些 Crawler 配置设置。启用后,它会强制 Crawler 的更新行为和删除行为LOG。这意味着:

    • 如果增量爬网发现具有与数据目录中记录的架构足够不同的对象,以致 Crawler 无法创建新分区,Crawler 将忽略这些对象并在 CloudWatch Logs 中记录该事件。

    • 如果增量爬网发现已删除的对象,则会忽略这些对象,并且不会更新数据目录。

    有关更多信息,请参阅设置爬网程序配置选项

  • 如果增量爬网发现添加的多个新分区或文件夹,其中大多数分区或文件夹必须与数据目录中记录的架构匹配,才能使 Crawler 成功添加这些分区或文件夹。否则,Crawler 可能无法添加分区,因为架构变种太多。