本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
如何阻止爬网程序更改现有架构
如果您不希望爬网程序覆盖您对 Amazon S3 表定义中的现有字段进行的更新,请在控制台上选择选项 Add new columns only (仅添加新列) 或设置配置选项 MergeNewColumns
。这适用于表和分区,除非 Partitions.AddOrUpdateBehavior
被覆盖为 InheritFromTable
。
如果您不希望在爬网程序运行时更改表架构,请将架构更改策略设置为 LOG
。您还可以设置将分区架构设置为从表继承的配置选项。
如果您在控制台上配置爬网程序,可以选择以下操作:
Ignore the change and don't update the table in the Data Catalog(忽略更改,不更新数据目录中的表)
Update all new and existing partitions with metadata from the table (使用表中的元数据更新所有新的和现有的分区)
当您使用 API 配置爬网程序时,请设置以下参数:
将
SchemaChangePolicy
结构中的UpdateBehavior
字段设置为LOG
。使用爬网程序 API 中的以下 JSON 对象的字符串表示形式设置
Configuration
字段;例如:{ "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" } } }