自定义爬网程序行为 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自定义爬网程序行为

当您配置 Amazon Glue 爬网程序时,有多个选项可用于定义爬网程序的行为。

  • 增量爬取:您可以将爬网程序配置为运行增量爬取,以便仅向表架构添加新分区。

  • 分区索引:默认情况下,爬网程序会为 Amazon S3 和 Delta Lake 目标创建分区索引,以便对特定分区提供有效的查找。

  • 使用 Amazon S3 事件加快爬取时间:您可以配置爬网程序以使用 Amazon S3 事件识别两次网络爬取之间的更改,方法是列出触发事件的子文件夹中的所有文件,而不是列出完整的 Amazon S3 或 Data Catalog 目标。

  • 处理架构更改:您可以阻止爬网程序对现有架构进行任何架构更改。您可以使用 Amazon Web Services Management Console或 Amazon Glue API 来配置爬网程序如何处理某些类型的更改。

  • 多条 Amazon S3 路径的单个架构:如果数据兼容,则您可以配置爬网程序,为每条 S3 路径创建单个架构。

  • 表位置和分区级别:通过表级别爬网程序选项,您可以灵活地告诉爬网程序表的位置,以及您希望如何创建分区。

  • 表阈值:您可以通过指定表阈值来指定爬网程序允许创建的最大表数。

  • Amazon Lake Formation 凭证:您可以将爬网程序配置为使用 Lake Formation 凭证访问 Amazon S3 数据存储库或 Data Catalog 表,该表包含相同 Amazon Web Services 账户或不同 Amazon Web Services 账户中的基础 Amazon S3 位置。

有关使用 Amazon Glue 控制台添加爬网程序的更多信息,请参阅配置爬网程序