如何阻止爬网程序更改现有架构 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

如何阻止爬网程序更改现有架构

如果您不希望爬网程序覆盖您对 Amazon S3 表定义中的现有字段进行的更新,请在控制台上选择选项 Add new columns only (仅添加新列) 或设置配置选项 MergeNewColumns。这适用于表和分区,除非 Partitions.AddOrUpdateBehavior 被覆盖为 InheritFromTable

如果您不希望在爬网程序运行时更改表架构,请将架构更改策略设置为 LOG。您还可以设置将分区架构设置为从表继承的配置选项。

如果您在控制台上配置爬网程序,可以选择以下操作:

  • Ignore the change and don't update the table in the Data Catalog(忽略更改,不更新数据目录中的表)

  • Update all new and existing partitions with metadata from the table (使用表中的元数据更新所有新的和现有的分区)

当您使用 API 配置爬网程序时,请设置以下参数:

  • SchemaChangePolicy 结构中的 UpdateBehavior 字段设置为 LOG

  • 使用爬网程序 API 中的以下 JSON 对象的字符串表示形式设置 Configuration 字段;例如:

    { "Version": 1.0, "CrawlerOutput": { "Partitions": { "AddOrUpdateBehavior": "InheritFromTable" } } }