列统计数据 API - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

列统计数据 API

列统计数据 API 介绍了用于返回表中各列统计数据的 Amazon Glue API。

数据类型

ColumnStatisticsTaskRun 结构

显示列统计数据运行详细信息的对象。

字段
  • CustomerId – UTF-8 字符串,长度不超过 12 个字节。

    Amazon 账户 ID。

  • ColumnStatisticsTaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    特定列统计数据任务运行的标识符。

  • DatabaseName – UTF-8 字符串。

    表所在的数据库。

  • TableName – UTF-8 字符串。

    生成列统计数据的表的名称。

  • ColumnNameList – UTF-8 字符串数组。

    列名称的列表。如果不提供此参数,则默认情况下将使用表的所有列名。

  • CatalogID – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • Role – UTF-8 字符串。

    服务为了生成统计数据而代入的 IAM 角色。

  • SampleSize – 数值(双精度),不超过 100。

    用于生成统计数据的行百分比。如果不提供此参数,则将用整个表来生成统计数据。

  • SecurityConfiguration – UTF-8 字符串,长度不超过 128 个字节。

    用于为列统计数据任务运行的 CloudWatch 日志加密的安全配置的名称。

  • NumberOfWorkers - 数字(整数),至少为 1。

    生成列统计数据的 Worker 线程数。此作业已预先配置为可自动扩展至不超过 25 个实例。

  • WorkerType – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于生成统计数据的 Worker 线程类型。默认为 g.1x

  • Status – UTF-8 字符串(有效值:STARTING | RUNNING | SUCCEEDED | FAILED | STOPPED)。

    任务运行的状态。

  • CreationTime – 时间戳。

    此任务的创建时间。

  • LastUpdated – 时间戳。

    上次修改此任务的时间点。

  • StartTime – 时间戳。

    任务的开始时间。

  • EndTime – 时间戳。

    任务的结束时间。

  • ErrorMessage – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    作业的错误消息。

  • DPUSeconds – 数字(双数),至多为“无”。

    所有自动扩展的 Worker 线程的计算 DPU 使用量(以秒为单位)。

ColumnStatisticsTaskRunningException 结构

在运行列统计数据生成作业时尝试启动其他作业引发的异常。

字段
  • Message – UTF-8 字符串。

    描述问题的消息。

ColumnStatisticsTaskNotRunningException 结构

在没有任务运行时尝试停止任务运行引发的异常。

字段
  • Message – UTF-8 字符串。

    描述问题的消息。

ColumnStatisticsTaskStoppingException 结构

在尝试停止任务运行引发的异常。

字段
  • Message – UTF-8 字符串。

    描述问题的消息。

操作

StartColumnStatisticsTaskRun 操作(Python:start_column_statistics_task_run)

为指定的表和列启动列统计数据任务运行。

请求
  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要生成统计数据的表的名称。

  • ColumnNameList – UTF-8 字符串数组。

    生成统计数据的列名列表。如果不提供此参数,则默认情况下将使用表的所有列名。

  • Role必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    服务为了生成统计数据而代入的 IAM 角色。

  • SampleSize – 数值(双精度),不超过 100。

    用于生成统计数据的行百分比。如果不提供此参数,则将用整个表来生成统计数据。

  • CatalogID – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • SecurityConfiguration – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于为列统计数据任务运行的 CloudWatch 日志加密的安全配置的名称。

响应
  • ColumnStatisticsTaskRunId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    列统计数据任务运行的标识符。

错误
  • AccessDeniedException

  • EntityNotFoundException

  • ColumnStatisticsTaskRunningException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • InvalidInputException

GetColumnStatisticsTaskRun 操作(Python:get_column_statistics_task_run)

在已知任务运行 ID 的情况下,获取任务运行的相关元数据/信息。

请求
  • ColumnStatisticsTaskRunId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    特定列统计数据任务运行的标识符。

响应
  • ColumnStatisticsTaskRun – 一个 ColumnStatisticsTaskRun 对象。

    表示列统计数据运行详细信息的 ColumnStatisticsTaskRun 对象。

错误
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException

GetColumnStatisticsTaskRuns 操作(Python:get_column_statistics_task_runs)

检索与指定表关联的所有运行的信息。

请求
  • DatabaseName必填:UTF-8 字符串。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的名称。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    响应的最大大小。

  • NextToken – UTF-8 字符串。

    延续标记 (如果这是延续调用)。

响应
  • ColumnStatisticsTaskRunsColumnStatisticsTaskRun 对象的数组。

    列统计数据任务运行列表。

  • NextToken – UTF-8 字符串。

    延续令牌(如果尚未返回所有任务运行)。

错误
  • OperationTimeoutException

ListColumnStatisticsTaskRuns 操作(Python:list_column_statistics_task_runs)

列出特定账户的所有任务运行。

请求
  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    响应的最大大小。

  • NextToken – UTF-8 字符串。

    延续标记 (如果这是延续调用)。

响应
  • ColumnStatisticsTaskRunIds – UTF-8 字符串数组,不超过 100 个字符串。

    列统计数据任务运行 ID 列表。

  • NextToken – UTF-8 字符串。

    延续令牌(如果尚未返回所有任务运行 ID)。

错误
  • OperationTimeoutException

StopColumnStatisticsTaskRun 操作(Python:stop_column_statistics_task_run)

停止指定表的任务运行。

请求
  • DatabaseName必填:UTF-8 字符串。

    表所在的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • ColumnStatisticsTaskNotRunningException

  • ColumnStatisticsTaskStoppingException

  • OperationTimeoutException