Amazon Glue 中的增量爬网 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

Amazon Glue 中的增量爬网

对于 Amazon Simple Storage Service(Amazon S3)数据源,增量爬网仅爬取自上次爬网程序运行以来添加的文件夹。如果没有此选项,爬网程序将爬取整个数据集。增量爬网可以节省大量时间和成本。要执行增量爬网,您可以在 Amazon Glue 控制台中设置 Crawl new folders only (仅爬取新文件夹) 选项或在 API 的 CreateCrawler 请求中设置 RecrawlPolicy 属性。

增量爬网最适合具有稳定表架构的增量数据集。典型用例是针对计划的爬网程序,在每次爬取期间都会添加新的分区。继续 爬网程序如何确定何时创建分区? 中的示例,下图显示已添加三月份的文件。


          文件夹(矩形)层次结构与上一个图像中的相同,只是添加了一个三月份的矩形,其中包含一个子文件夹,“day=1 (天=1)”。该子文件夹有四个文件。

如果您设置 Crawl new folders only (仅爬取新文件夹) 选项,则仅爬取新文件夹 month=Mar

增量爬网的注意事项和限制

请记住以下有关增量爬网的附加信息:

  • 增量爬取的最佳实践是先对目标数据集运行一次完整的爬网,以使爬网程序能够记录初始架构和分区结构。

  • 启用此选项后,您无法在编辑爬网程序时更改 Amazon S3 目标数据存储。

  • 此选项会影响某些爬网程序配置设置。启用后,它会将爬网程序的更新行为和删除行为强制为 LOG。这意味着:

    • 如果增量爬网发现具有与数据目录中记录的架构存在太大差异的架构的对象,以至于爬网程序无法创建新分区,则爬网程序将忽略这些对象并将事件记录在 CloudWatch Logs 中。

    • 如果增量爬网发现已删除的对象,它会忽略它们并且不会更新数据目录。

    有关更多信息,请参阅 设置爬网程序配置选项

  • 如果增量爬网发现添加的多个新分区或文件夹,其中大多数分区或文件夹必须与数据目录中记录的架构匹配,才能使爬网程序能够成功添加这些分区或文件夹。否则,爬网程序可能无法添加分区,因为架构变种太多。