中的增量爬网AWS Glue - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

中的增量爬网AWS Glue

对于 Amazon Simple Storage Service (Amazon S3) 数据源,增量爬网仅爬取自上次爬网程序运行以来添加的文件夹。如果没有此选项,爬网程序将爬网整个数据集。增量爬网可以节省大量时间和成本。要执行增量爬网,您可以在 控制台中设置 Crawl new folders only (仅爬取新文件夹)AWS Glue 选项,或在 API 的 RecrawlPolicy 请求中设置 CreateCrawler 属性。

增量爬网最适合具有稳定表架构的增量数据集。典型的使用案例适用于计划的爬网程序,在每次爬网期间,将添加新分区。继续爬网程序如何确定何时创建分区?中的示例,下图显示已添加 3 月份的文件。


          文件夹 (Rectangle) 层次结构与上图中的层次结构相同,只不过添加了 3 月的矩形,且带有单个子文件夹 day=1。该子文件夹有四个文件。

如果您设置 Crawl new folders only (仅爬取新文件夹) 选项,则只会爬取新文件夹 month=Mar

增量爬网的注意事项和限制

请记住以下有关增量爬网的其他信息:

  • 增量爬网的最佳实践是首先在目标数据集上运行完整爬网,以使爬网程序能够记录初始架构和分区结构。

  • 当此选项处于打开状态时,您在编辑爬网程序时无法更改 Amazon S3 目标数据存储。

  • 此选项会影响某些爬网程序配置设置。启用后,它会强制 LOG 使用爬网程序的更新行为和删除行为。 这意味着:

    • 如果增量爬网发现具有与 Data Catalog 中记录的架构足够不同的架构的对象,以便爬网程序无法创建新分区,则爬网程序将忽略这些对象并在 CloudWatch Logs 中记录事件。

    • 如果增量爬网发现已删除的对象,它将忽略这些对象,并且不会更新 Data Catalog。

    有关更多信息,请参阅设置爬网程序配置选项

  • 如果增量爬网发现添加的多个新分区或文件夹,则其中的大多数新分区或文件夹必须与 Data Catalog 中记录的架构匹配,爬网程序才能成功添加这些分区或文件夹。否则,爬网程序添加分区可能会失败,因为存在过多的架构类型。