生成分区索引 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

生成分区索引

Data Catalog 支持创建分区索引,以提供对特定分区的有效查找。有关更多信息,请参阅 Creating partition indexes。默认情况下,Amazon Glue 爬网程序会为 Amazon S3 和 Delta Lake 目标创建分区索引。

Amazon Web Services Management Console
  1. 登录 Amazon Web Services Management Console,然后打开 Amazon Glue 控制台,网址为:https://console.aws.amazon.com/glue/

  2. 数据目录下选择爬网程序

  3. 定义爬网程序时,在设置输出和调度页面中的高级选项下,自动创建分区索引选项默认处于启用状态。

    要禁用此选项,可以在控制台中取消选择自动创建分区索引复选框。

  4. 完成爬网程序配置并选择创建爬网程序

Amazon CLI

您也可以使用 Amazon CLI 禁用此选项,在 configuration 参数中设置 CreatePartitionIndex 。默认值为 true。

aws glue update-crawler \ --name myCrawler \ --configuration '{"Version": 1.0, "CreatePartitionIndex": false }'

分区索引的使用说明