自定义爬网程序行为

当您配置 Amazon Glue 爬网程序时，有多个选项可用于定义爬网程序的行为。

增量爬取：您可以将爬网程序配置为运行增量爬取，以便仅向表架构添加新分区。
分区索引：默认情况下，爬网程序会为 Amazon S3 和 Delta Lake 目标创建分区索引，以便对特定分区提供有效的查找。
使用 Amazon S3 事件加快爬取时间：您可以配置爬网程序以使用 Amazon S3 事件识别两次网络爬取之间的更改，方法是列出触发事件的子文件夹中的所有文件，而不是列出完整的 Amazon S3 或 Data Catalog 目标。
处理架构更改：您可以阻止爬网程序对现有架构进行任何架构更改。您可以使用 Amazon Web Services Management Console或 Amazon Glue API 来配置爬网程序如何处理某些类型的更改。
多条 Amazon S3 路径的单个架构：如果数据兼容，则您可以配置爬网程序，为每条 S3 路径创建单个架构。
表位置和分区级别：通过表级别爬网程序选项，您可以灵活地告诉爬网程序表的位置，以及您希望如何创建分区。
表阈值：您可以通过指定表阈值来指定爬网程序允许创建的最大表数。
Amazon Lake Formation 凭证：您可以将爬网程序配置为使用 Lake Formation 凭证访问 Amazon S3 数据存储库或 Data Catalog 表，该表包含相同 Amazon Web Services 账户或不同 Amazon Web Services 账户中的基础 Amazon S3 位置。

有关使用 Amazon Glue 控制台添加爬网程序的更多信息，请参阅配置爬网程序。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

爬网程序在数据目录表上设置的参数

计划增量爬取