列统计 API - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

列统计 API

列统计信息API描述 Amazon Glue APIs了如何返回表中各列的统计信息。

数据类型

ColumnStatisticsTaskRun 结构

显示列统计数据运行详细信息的对象。

字段
  • CustomerId— UTF -8 字符串,长度不超过 12 字节。

    Amazon 账户 ID。

  • ColumnStatisticsTaskRunId— UTF -8 字符串,长度不小于 1 或超过 255 字节,与. Single-line string pattern

    特定列统计数据任务运行的标识符。

  • DatabaseName— UTF -8 字符串。

    表所在的数据库。

  • TableName— UTF -8 字符串。

    生成列统计数据的表的名称。

  • ColumnNameList— 由 UTF -8 个字符串组成的数组。

    列名称的列表。如果不提供此参数,则默认情况下将使用表的所有列名。

  • CatalogID – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果未提供任何信息,则默认使用 Amazon 账户 ID。

  • Role— UTF -8 字符串。

    服务在生成统计数据时所IAM扮演的角色。

  • SampleSize – 数值(双精度),不超过 100。

    用于生成统计数据的行百分比。如果不提供此参数,则将用整个表来生成统计数据。

  • SecurityConfiguration— UTF -8 字符串,长度不超过 128 字节。

    用于加密列统计任务运行 CloudWatch日志的安全配置的名称。

  • NumberOfWorkers— 数字(整数),不小于 2 或大于 50。

    生成列统计数据的 Worker 线程数。此作业已预先配置为可自动扩展至不超过 25 个实例。

  • WorkerType— UTF -8 字符串(有效值:G.1X="G_1X"| | G.2X="G_2X" G.4X="G_4X" |G.8X="G_8X")。

    用于生成统计数据的 Worker 线程类型。默认为 g.1x

  • ComputationType— UTF -8 字符串(有效值:FULL|INCREMENTAL)。

    列统计计算的类型。

  • Status— UTF -8 字符串(有效值:STARTING| RUNNING | SUCCEEDED FAILED |STOPPED)。

    任务运行的状态。

  • CreationTime – 时间戳。

    此任务的创建时间。

  • LastUpdated – 时间戳。

    上次修改此任务的时间点。

  • StartTime – 时间戳。

    任务的开始时间。

  • EndTime – 时间戳。

    任务的结束时间。

  • ErrorMessage – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    作业的错误消息。

  • DPUSeconds – 数字(双数),至多为“无”。

    所有自动缩放工作人员的计算DPU使用量(以秒为单位)。

ColumnStatisticsTaskRunningException 结构

在运行列统计数据生成作业时尝试启动其他作业引发的异常。

字段
  • Message— UTF -8 字符串。

    描述问题的消息。

ColumnStatisticsTaskNotRunningException 结构

在没有任务运行时尝试停止任务运行引发的异常。

字段
  • Message— UTF -8 字符串。

    描述问题的消息。

ColumnStatisticsTaskStoppingException 结构

在尝试停止任务运行引发的异常。

字段
  • Message— UTF -8 字符串。

    描述问题的消息。

ColumnStatisticsTaskSettings 结构

列统计任务的设置。

字段
  • DatabaseName— UTF -8 字符串。

    表所在的数据库的名称。

  • TableName— UTF -8 字符串。

    要为其生成列统计信息的表的名称。

  • Schedule – 一个 计划 对象。

    运行列统计信息的计划,在CRON语法中指定。

  • ColumnNameList— 由 UTF -8 个字符串组成的数组。

    要运行统计数据的列名列表。

  • CatalogID – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    数据库所在的数据目录的 ID。

  • Role— UTF -8 字符串。

    用于运行列统计信息的角色。

  • SampleSize – 数值(双精度),不超过 100。

    要采样的数据的百分比。

  • SecurityConfiguration— UTF -8 字符串,长度不超过 128 字节。

    用于加密 CloudWatch日志的安全配置的名称。

操作

StartColumnStatisticsTaskRun 操作(Python:start_column_statistics_task_run)

为指定的表和列启动列统计数据任务运行。

请求
  • DatabaseName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    表所在的数据库的名称。

  • TableName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    要生成统计数据的表的名称。

  • ColumnNameList— 由 UTF -8 个字符串组成的数组。

    生成统计数据的列名列表。如果不提供此参数,则默认情况下将使用表的所有列名。

  • Role必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    服务在生成统计数据时所IAM扮演的角色。

  • SampleSize – 数值(双精度),不超过 100。

    用于生成统计数据的行百分比。如果不提供此参数,则将用整个表来生成统计数据。

  • CatalogID— UTF -8 字符串,长度不小于 1 或超过 255 字节,与. Single-line string pattern

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • SecurityConfiguration— UTF -8 字符串,长度不小于 1 或超过 255 字节,与. Single-line string pattern

    用于加密列统计任务运行 CloudWatch日志的安全配置的名称。

响应
  • ColumnStatisticsTaskRunId— UTF -8 字符串,长度不小于 1 或超过 255 字节,与. Single-line string pattern

    列统计数据任务运行的标识符。

错误
  • AccessDeniedException

  • EntityNotFoundException

  • ColumnStatisticsTaskRunningException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InvalidInputException

GetColumnStatisticsTaskRun 操作(Python:get_column_statistics_task_run)

在已知任务运行 ID 的情况下,获取任务运行的相关元数据/信息。

请求
  • ColumnStatisticsTaskRunId必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    特定列统计数据任务运行的标识符。

响应
  • ColumnStatisticsTaskRun – 一个 ColumnStatisticsTaskRun 对象。

    表示列统计数据运行详细信息的 ColumnStatisticsTaskRun 对象。

错误
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException

GetColumnStatisticsTaskRuns 操作(Python:get_column_statistics_task_runs)

检索与指定表关联的所有运行的信息。

请求
  • DatabaseName必填:UTF-8 字符串。

    表所在的数据库的名称。

  • TableName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    表的名称。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    响应的最大大小。

  • NextToken— UTF -8 字符串。

    延续标记 (如果这是延续调用)。

响应
  • ColumnStatisticsTaskRunsColumnStatisticsTaskRun 对象的数组。

    列统计数据任务运行列表。

  • NextToken— UTF -8 字符串。

    延续令牌(如果尚未返回所有任务运行)。

错误
  • OperationTimeoutException

ListColumnStatisticsTaskRuns 操作(Python:list_column_statistics_task_runs)

列出特定账户的所有任务运行。

请求
  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    响应的最大大小。

  • NextToken— UTF -8 字符串。

    延续标记 (如果这是延续调用)。

响应
  • ColumnStatisticsTaskRunIds— 由 UTF -8 个字符串组成的数组,不超过 100 个字符串。

    列统计任务运行的列表IDs。

  • NextToken— UTF -8 字符串。

    如果不是所有任务运行IDs都已返回,则为延续令牌。

错误
  • OperationTimeoutException

StopColumnStatisticsTaskRun 操作(Python:stop_column_statistics_task_run)

停止指定表的任务运行。

请求
  • DatabaseName必填:UTF-8 字符串。

    表所在的数据库的名称。

  • TableName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    表的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • ColumnStatisticsTaskNotRunningException

  • ColumnStatisticsTaskStoppingException

  • OperationTimeoutException

CreateColumnStatisticsTaskSettings 操作(Python:创建列统计任务设置)

为列统计任务创建设置。

请求
  • DatabaseName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    表所在的数据库的名称。

  • TableName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    要为其生成列统计信息的表的名称。

  • Role必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    用于运行列统计信息的角色。

  • Schedule— UTF -8 字符串。

    运行列统计信息的计划,在CRON语法中指定。

  • ColumnNameList— 由 UTF -8 个字符串组成的数组。

    要运行统计数据的列名列表。

  • SampleSize – 数值(双精度),不超过 100。

    要采样的数据的百分比。

  • CatalogID— UTF -8 字符串,长度不小于 1 或超过 255 字节,与. Single-line string pattern

    数据库所在的数据目录的 ID。

  • SecurityConfiguration— UTF -8 字符串,长度不小于 1 或超过 255 字节,与. Single-line string pattern

    用于加密 CloudWatch日志的安全配置的名称。

  • Tags – 键值对的映射数组,不超过 50 对。

    每个密钥都是一个 UTF -8 字符串,长度不小于 1 或超过 128 字节。

    每个值都是一个 UTF -8 字符串,长度不超过 256 字节。

    标签地图。

响应
  • 无响应参数。

错误
  • AlreadyExistsException

  • AccessDeniedException

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ColumnStatisticsTaskRunningException

UpdateColumnStatisticsTaskSettings 操作(Python:更新列统计任务设置)

更新列统计任务的设置。

请求
  • DatabaseName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    表所在的数据库的名称。

  • TableName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    要为其生成列统计信息的表的名称。

  • Role— UTF -8 字符串,长度不小于 1 或超过 255 字节,与. Single-line string pattern

    用于运行列统计信息的角色。

  • Schedule— UTF -8 字符串。

    运行列统计信息的计划,在CRON语法中指定。

  • ColumnNameList— 由 UTF -8 个字符串组成的数组。

    要运行统计数据的列名列表。

  • SampleSize – 数值(双精度),不超过 100。

    要采样的数据的百分比。

  • CatalogID— UTF -8 字符串,长度不小于 1 或超过 255 字节,与. Single-line string pattern

    数据库所在的数据目录的 ID。

  • SecurityConfiguration— UTF -8 字符串,长度不小于 1 或超过 255 字节,与. Single-line string pattern

    用于加密 CloudWatch日志的安全配置的名称。

响应
  • 无响应参数。

错误
  • AccessDeniedException

  • EntityNotFoundException

  • InvalidInputException

  • VersionMismatchException

  • OperationTimeoutException

GetColumnStatisticsTaskSettings 操作(Python:获取列统计任务设置)

获取列统计任务的设置。

请求
  • DatabaseName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    表所在的数据库的名称。

  • TableName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    要检索列统计信息的表的名称。

响应
  • ColumnStatisticsTaskSettings – 一个 ColumnStatisticsTaskSettings 对象。

    表示列统计任务设置的ColumnStatisticsTaskSettings对象。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

DeleteColumnStatisticsTaskSettings 操作(Python:删除列统计任务设置)

删除列统计任务的设置。

请求
  • DatabaseName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    表所在的数据库的名称。

  • TableName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    要删除其列统计信息的表的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

StartColumnStatisticsTaskRunSchedule 操作(Python:start_column_statistics_task_run_schedule)

启动列统计任务运行计划。

请求
  • DatabaseName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    表所在的数据库的名称。

  • TableName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    要为其启动列统计任务运行计划的表的名称。

响应
  • 无响应参数。

错误
  • AccessDeniedException

  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

StopColumnStatisticsTaskRunSchedule 操作(Python:stop_column_statistics_task_run_schedule)

停止列统计任务的运行计划。

请求
  • DatabaseName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    表所在的数据库的名称。

  • TableName必填:UTF-8 个字符串,长度不小于 1 或超过 255 字节,匹配。Single-line string pattern

    要停止列统计任务运行计划的表的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException