管理列统计数据生成计划 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

管理列统计数据生成计划

您可以管理 Amazon Glue 中的列统计数据生成计划操作,例如更新、启动、停止和删除计划。您可以使用 Amazon Glue 控制台、Amazon CLI 或 Amazon Glue 列统计 API 操作来执行这些任务。

更新列统计数据生成计划

创建列统计数据生成任务后,可以通过更新计划来触发该任务。您可以使用 Amazon Glue 控制台、Amazon CLI 或运行 UpdateColumnStatisticsTaskSettings 操作来更新表的计划。您可以修改现有计划的参数,例如计划类型(按需或定期)和其他可选参数。

Amazon Web Services Management Console
更新列统计数据生成任务的设置
  1. 通过以下网址登录到 Amazon Glue 控制台:https://console.aws.amazon.com/glue/

  2. 从表列表中选择要更新的表。

  3. 在“表详细信息”页面的下半部分中,选择列统计数据选项卡。

  4. 操作下,选择编辑以更新计划。

  5. 对计划进行所需的更改,然后选择保存

Amazon CLI

如果您并非通过控制台使用 Amazon Glue 的统计数据生成功能,则可以使用 update-column-statistics-task-settings 命令手动更新计划。以下示例演示了如何使用 Amazon CLI 更新列统计数据。

aws glue update-column-statistics-task-settings \ --database-name 'database_name' \ --table-name 'table_name' \ --role arn:aws:iam::123456789012:role/stats_role \ --schedule 'cron(0 0-5 16 * * ?)' \ --column-name-list 'col-1' \ --sample-size '20.0' \ --catalog-id '123456789012'\ --security-configuration 'test-security'

停止列统计数据生成计划

如果您不再需要增量统计数据,则可以停止生成计划以节省资源和成本。暂停计划不会影响之前生成的统计数据。您可以随时恢复计划。

Amazon Web Services Management Console
停止列统计数据生成任何的计划
  1. 在 Amazon Glue 控制台上,选择 Data Catalog 下的

  2. 选择包含列统计数据的表。

  3. 表详细信息页面上,选择列统计数据

  4. 操作下,依次选择按计划生成暂停

  5. 选择暂停以进行确认。

Amazon CLI

要使用 Amazon CLI 停止列统计任务运行计划,可以使用以下命令:

aws glue stop-column-statistics-task-run-schedule \ --database-name ''database_name' \ --table-name 'table_name'

请将 database_nametable_name 替换为要为其停止列统计任务运行计划的数据库和表的实际名称。

恢复列统计数据生成计划

如果您之前暂停了统计数据生成计划,则 Amazon Glue 允许您随时恢复该计划。您可以使用 Amazon Glue 控制台、Amazon CLI 或 StartColumnStatisticsTaskRunSchedule 操作恢复计划。

Amazon Web Services Management Console
恢复列统计数据生成计划
  1. 在 Amazon Glue 控制台上,选择 Data Catalog 下的

  2. 选择包含列统计数据的表。

  3. 表详细信息页面上,选择列统计数据

  4. 操作下,依次选择按计划生成恢复

  5. 选择恢复以进行确认。

Amazon CLI

请将 database_nametable_name 替换为要为其停止列统计任务运行计划的数据库和表的实际名称。

aws glue start-column-statistics-task-run-schedule \ --database-name 'database_name' \ --table-name 'table_name'

删除列统计数据生成计划

尽管为了获得最佳查询性能,通常建议保持统计数据为最新,但在某些特定的使用场景中,删除自动生成计划可能较有助益。

  • 如果数据保持相对静态,则现有的列统计数据可在很长一段时间内保持准确性,减少频繁更新的需求。删除计划可以防止不必要的资源消耗,以及与重新生成未更改数据的统计数据相关的开销。

  • 偏好手动控制统计数据生成时。通过删除自动计划,管理员可以有选择地按特定间隔时间或在数据发生重大更改后更新列统计数据,从而确保流程与其维护政策和资源分配需求保持一致。

Amazon Web Services Management Console
删除列统计数据生成计划
  1. 在 Amazon Glue 控制台上,选择 Data Catalog 下的

  2. 选择包含列统计数据的表。

  3. 表详细信息页面上,选择列统计数据

  4. 操作下,依次选择按计划生成删除

  5. 选择删除以进行确认。

Amazon CLI

请将 database_nametable_name 替换为要为其停止列统计任务运行计划的数据库和表的实际名称。

您可以使用 DeleteColumnStatisticsTaskSettings API 操作或 Amazon CLI 来删除列统计数据生成计划。以下示例演示了如何使用 Amazon Command Line Interface(Amazon CLI)删除列统计数据生成计划。

aws glue delete-column-statistics-task-settings \ --database-name 'database_name' \ --table-name 'table_name'