表 API - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

表 API

表 API 介绍与表关联的数据类型和操作。

数据类型

Table 结构

表示用列和行组织的相关数据的集合。

字段
  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表名称。对于 Hive 兼容性,它必须是完全小写的。

  • DatabaseName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表元数据所在的数据库名称。对于 Hive 兼容性,它必须是全部小写的。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    对表的描述。

  • Owner – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的所有者。

  • CreateTime – 时间戳。

    在数据目录中创建表定义的时间。

  • UpdateTime – 时间戳。

    上次更新该表的时间。

  • LastAccessTime – 时间戳。

    上次访问该表的时间。这通常取自 HDFS,可能不可靠。

  • LastAnalyzedTime – 时间戳。

    上次计算此表的列统计信息的时间。

  • Retention – 数字(整数),至多为“无”。

    此表的保留时间。

  • StorageDescriptor – 一个 StorageDescriptor 对象。

    一个存储描述符,包含有关此表的物理存储的信息。

  • PartitionKeys 对象的数组。

    表进行分区所依据的列的列表。仅支持基元类型作为分区键。

    创建 Amazon Athena 使用的表时,如果未指定任何 partitionKeys,则必须至少将 partitionKeys 的值设置为空列表。例如:

    "PartitionKeys": []

  • ViewOriginalText – UTF-8 字符串,不超过 409600 个字节。

    随附以实现 Apache Hive 兼容性。正常的 Amazon Glue 操作过程中不使用。如果表为 VIRTUAL_VIEW,则特定 Athena 配置编码为 base64。

  • ViewExpandedText – UTF-8 字符串,不超过 409600 个字节。

    随附以实现 Apache Hive 兼容性。正常的 Amazon Glue 操作过程中不使用。

  • TableType – UTF-8 字符串,不超过 255 个字节。

    该表的类型。Amazon Glue 将创建 EXTERNAL_TABLE 类型的表。其他服务(例如 Athena)可能会创建其他表类型的表。

    Amazon Glue 相关表类型:

    EXTERNAL_TABLE

    Hive 兼容属性 - 表示非 Hive 托管表。

    GOVERNED

    由 Amazon Lake Formation 使用。Amazon Glue Data Catalog 了解 GOVERNED

  • Parameters – 键值对的映射数组。

    每个键是一个键字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值是一个 UTF-8 字符串,不超过 512000 个字节。

    这些键值对定义了与此表关联的属性。

  • CreatedBy – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    创建表的人员或实体。

  • IsRegisteredWithLakeFormation – 布尔值。

    指示表是否已注册到 Amazon Lake Formation。

  • TargetTable – 一个 TableIdentifier 对象。

    描述用于资源链接的目标表的 TableIdentifier 结构。

  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。

  • VersionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表版本 ID。

  • FederatedTable – 一个 联合表 对象。

    一种引用 Amazon Glue Data Catalog 外部实体的 FederatedTable 结构。

  • ViewDefinition – 一个 ViewDefinition 对象。

    包含定义视图的所有信息的结构,包括视图的一个或多个方言和查询。

  • IsMultiDialectView – 布尔值。

    指定视图是否支持一个或多个不同查询引擎的 SQL 方言,因此可以由这些引擎读取。

TableInput 结构

用于定义表的结构。

字段
  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表名称。为了确保 Hive 兼容性,它在存储时被转换为小写。

  • Description – 描述字符串,长度不超过 2048 个字节,与 URI address multi-line string pattern 匹配。

    对表的描述。

  • Owner – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所有者。随附以实现 Apache Hive 兼容性。正常的 Amazon Glue 操作过程中不使用。

  • LastAccessTime – 时间戳。

    上次访问该表的时间。

  • LastAnalyzedTime – 时间戳。

    上次计算此表的列统计信息的时间。

  • Retention – 数字(整数),至多为“无”。

    此表的保留时间。

  • StorageDescriptor – 一个 StorageDescriptor 对象。

    一个存储描述符,包含有关此表的物理存储的信息。

  • PartitionKeys 对象的数组。

    表进行分区所依据的列的列表。仅支持基元类型作为分区键。

    创建 Amazon Athena 使用的表时,如果未指定任何 partitionKeys,则必须至少将 partitionKeys 的值设置为空列表。例如:

    "PartitionKeys": []

  • ViewOriginalText – UTF-8 字符串,不超过 409600 个字节。

    随附以实现 Apache Hive 兼容性。正常的 Amazon Glue 操作过程中不使用。如果表为 VIRTUAL_VIEW,则特定 Athena 配置编码为 base64。

  • ViewExpandedText – UTF-8 字符串,不超过 409600 个字节。

    随附以实现 Apache Hive 兼容性。正常的 Amazon Glue 操作过程中不使用。

  • TableType – UTF-8 字符串,不超过 255 个字节。

    该表的类型。Amazon Glue 将创建 EXTERNAL_TABLE 类型的表。其他服务(例如 Athena)可能会创建其他表类型的表。

    Amazon Glue 相关表类型:

    EXTERNAL_TABLE

    Hive 兼容属性 - 表示非 Hive 托管表。

    GOVERNED

    由 Amazon Lake Formation 使用。Amazon Glue Data Catalog 了解 GOVERNED

  • Parameters – 键值对的映射数组。

    每个键是一个键字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值是一个 UTF-8 字符串,不超过 512000 个字节。

    这些键值对定义了与此表关联的属性。

  • TargetTable – 一个 TableIdentifier 对象。

    描述用于资源链接的目标表的 TableIdentifier 结构。

  • ViewDefinition – 一个 ViewDefinitionInput 对象。

    包含定义视图的所有信息的结构,包括视图的一个或多个方言和查询。

联合表结构

指向 Amazon Glue Data Catalog 外部实体的表。

字段
  • Identifier – UTF-8 字符串,长度不少于 1 个字节或超过 512 个字节,与 Single-line string pattern 匹配。

    联合表的唯一标识符。

  • DatabaseIdentifier – UTF-8 字符串,长度不少于 1 个字节或超过 512 个字节,与 Single-line string pattern 匹配。

    联合数据库的唯一标识符。

  • ConnectionName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    与外部元存储连接的名称。

列结构

Table 中的列。

字段
  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    Column 的名称。

  • Type – UTF-8 字符串,不超过 131072 个字节,与 Single-line string pattern 匹配。

    Column 的数据类型。

  • Comment – 注释字符串,不超过 255 个字节,与 Single-line string pattern 匹配。

    自由格式的文本注释。

  • Parameters – 键值对的映射数组。

    每个键是一个键字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值是一个 UTF-8 字符串,不超过 512000 个字节。

    这些键/值对定义了与此列关联的属性。

StorageDescriptor 结构

描述表数据的物理存储。

字段
  • Columns 对象的数组。

    表中的 Columns 的列表。

  • Location – 位置字符串,不超过 2056 个字节,与 URI address multi-line string pattern 匹配。

    表的物理位置。默认情况下,它采用仓库位置的形式,后跟仓库中的数据库位置,然后是表名称。

  • AdditionalLocations – UTF-8 字符串数组。

    指向 Delta 表所在路径的位置列表。

  • InputFormat – 格式字符串,不超过 128 个字节,与 Single-line string pattern 匹配。

    输入格式:SequenceFileInputFormat(二进制)或 TextInputFormat 或自定义格式。

  • OutputFormat – 格式字符串,不超过 128 个字节,与 Single-line string pattern 匹配。

    输出格式:SequenceFileOutputFormat(二进制)、IgnoreKeyTextOutputFormat 或自定义格式。

  • Compressed – 布尔值。

    如果对表中的数据进行压缩,则为 True,否则为 False

  • NumberOfBuckets – 数字(整数)。

    如果表包含任何维度列,则必须指定。

  • SerdeInfo – 一个 SerDeInfo 对象。

    序列化/反序列化(SerDe)信息。

  • BucketColumns – UTF-8 字符串数组。

    表中的 Reducer 分组列、集群列以及桶列的列表。

  • SortColumns顺序 对象的数组。

    指定表中的每个桶的排序顺序的列表。

  • Parameters – 键值对的映射数组。

    每个键是一个键字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值是一个 UTF-8 字符串,不超过 512000 个字节。

    使用键/值形式的用户提供的属性。

  • SkewedInfo – 一个 SkewedInfo 对象。

    有关在列中经常出现的值(偏斜值)的信息。

  • StoredAsSubDirectories – 布尔值。

    如果表数据存储在子目录中,则为 True,否则为 False

  • SchemaReference – 一个 SchemaReference 对象。

    引用存储在 Amazon Glue 架构注册表中的架构的对象。

    创建表时,可以为架构传递列的空列表,而使用架构引用。

SchemaReference 结构

引用存储在 Amazon Glue 架构注册表中的架构的对象。

字段
  • SchemaId – 一个 SchemaId 对象。

    包含架构标识字段的结构。必须提供此值或 SchemaVersionId

  • SchemaVersionId – UTF-8 字符串,长度不少于 36 个字节或超过 36 个字节,与 Custom string pattern #17 匹配。

    分配给架构版本的唯一 ID。必须提供此值或 SchemaId

  • SchemaVersionNumber – 数字(长度),不小于 1 或大于 100000。

    架构的版本号。

SerDeInfo 结构

有关序列化/反序列化程序(SerDe)的信息,它用作抽取器和加载器。

字段
  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    SerDe 的名称。

  • SerializationLibrary – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    通常是实现 SerDe 的类。例如,org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe

  • Parameters – 键值对的映射数组。

    每个键是一个键字符串,不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    每个值是一个 UTF-8 字符串,不超过 512000 个字节。

    这些键值对用于定义 SerDe 的初始化参数。

Order 结构

指定排序列的排序顺序。

字段
  • Column必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    列的名称。

  • SortOrder必填:数字(整数),不大于 1。

    指示是按升序(== 1)还是降序(==0)对列进行排序。

SkewedInfo 结构

指定表中的偏斜值。偏斜值是指出现频率很高的值。

字段
  • SkewedColumnNames – UTF-8 字符串数组。

    包含偏斜值的列名称的列表。

  • SkewedColumnValues – UTF-8 字符串数组。

    经常被认为是偏斜的值的列表。

  • SkewedColumnValueLocationMaps – 键值对的映射数组。

    每个键是一个 UTF-8 字符串。

    每个值是一个 UTF-8 字符串。

    偏斜值到包含它们的列的映射。

TableVersion 结构

指定表的版本。

字段
  • Table – 一个 对象。

    所涉表。

  • VersionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    标识此表版本的 ID 值。VersionId 是整数的字符串表示。每个版本都会增加 1。

TableError 结构

表操作的错误记录。

字段
  • TableName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的名称。对于 Hive 兼容性,它必须是完全小写的。

  • ErrorDetail – 一个 ErrorDetail 对象。

    有关错误的详细信息。

TableVersionError 结构

表版本操作的错误记录。

字段
  • TableName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    相关表的名称。

  • VersionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    所涉版本的 ID 值。VersionID 是整数的字符串表示。每个版本都会增加 1。

  • ErrorDetail – 一个 ErrorDetail 对象。

    有关错误的详细信息。

SortCriterion 结构

指定要作为排序依据的字段和排序顺序。

字段
  • FieldName – 值字符串,不超过 1024 个字节。

    要作为排序依据的字段的名称。

  • Sort – UTF-8 字符串(有效值:ASC="ASCENDING" | DESC="DESCENDING")。

    升序或降序排序。

TableIdentifier 结构

描述用于资源链接的目标表的结构。

字段
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。

  • DatabaseName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    包含目标表的目录数据库的名称。

  • Name – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    目标表的名称。

  • Region – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    目标表的区域。

KeySchemaElement 结构

由名称和类型组成的分区密钥对。

字段
  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分区键的名称。

  • Type必填:UTF-8 字符串,长度不超过 131072 个字节,与 Single-line string pattern 匹配。

    分区键的类型。

PartitionIndex 结构

分区索引的结构。

字段
  • Keys必填:UTF-8 字符串数组,至少 1 个字符串。

    分区索引的键。

  • IndexName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分区索引的名称。

PartitionIndexDescriptor 结构

表中分区索引的描述符。

字段
  • IndexName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分区索引的名称。

  • Keys必填KeySchemaElement对象的数组,至少有 1 个结构。

    一个或多个键的列表,例如 KeySchemaElement 结构,用于分区索引。

  • IndexStatus必填:UTF-8 字符串(有效值:CREATING | ACTIVE | DELETING | FAILED)。

    分区索引的状态。

    可能状态包括:

    • CREATING:正在创建索引。当索引处于 CREATING 状态时,无法删除索引或其表。

    • ACTIVE:索引创建成功。

    • FAILED:索引创建失败。

    • DELETING:索引将从索引列表中删除。

  • BackfillErrorsBackfillError 对象的数组。

    为现有表注册分区索引时可能发生的错误列表。

BackfillError 结构

为现有表注册分区索引时可能发生的错误列表。

这些错误提供了有关索引注册失败的原因的详细信息,并在响应中提供了有限数量的分区,以便您可以在故障时修复分区并尝试重新注册索引。可能发生的最常见错误集分类如下:

  • EncryptedPartitionError:分区已加密。

  • InvalidPartitionTypeDataError:分区值与该分区列的数据类型不匹配。

  • MissingPartitionValueError:分区已加密。

  • UnsupportedPartitionCharacterError:不支持分区值内的字符。例如:U+0000、U+0001 和 U+0002。

  • InternalError:任何不属于其他错误代码的错误。

字段
  • Code – UTF-8 字符串(有效值:ENCRYPTED_PARTITION_ERROR | INTERNAL_ERROR | INVALID_PARTITION_TYPE_DATA_ERROR | MISSING_PARTITION_VALUE_ERROR | UNSUPPORTED_PARTITION_CHARACTER_ERROR)。

    为现有表注册分区索引时发生的错误代码。

  • PartitionsPartitionValueList 对象的数组。

    响应中有限数量的分区列表。

IcebergInput 结构

一种结构,用于定义要在目录中创建的 Apache Iceberg 元数据表。

字段
  • MetadataOperation必填:UTF-8 字符串(有效值:CREATE)。

    必需的元数据操作。只能设置为 CREATE

  • Version – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    Iceberg 表的表格版本。默认值为 2。

OpenTableFormatInput 结构

一种表示开放格式表的结构。

字段
  • IcebergInput – 一个 IcebergInput 对象。

    指定用于定义 Apache Iceberg 元数据表的 IcebergInput 结构。

ViewDefinition 结构

包含表示形式详细信息的结构。

字段
  • IsProtected – 布尔值。

    您可以将此标志设置为 true,以指示引擎在查询规划期间不要将用户提供的操作推送到视图的逻辑计划中。但是,设置此标志并不能保证引擎将遵循此要求。请参阅引擎的文档以了解所提供的保证(如果有)。

  • Definer – UTF-8 字符串,长度不少于 1 个字节或超过 512 个字节,与 Single-line string pattern 匹配。

    SQL 中视图的定义者。

  • SubObjects – UTF-8 字符串数组,不超过 10 个字符串。

    包含表 Amazon 资源名称(ARN)的列表。

  • RepresentationsViewRepresentation对象的数组,不少于 1 个或不超过 1000 个结构。

    包含表示形式的列表。

ViewDefinitionInput 结构

包含用于创建或更新 Amazon Glue 视图的详细信息的结构。

字段
  • IsProtected – 布尔值。

    您可以将此标志设置为 true,以指示引擎在查询规划期间不要将用户提供的操作推送到视图的逻辑计划中。但是,设置此标志并不能保证引擎将遵循此要求。请参阅引擎的文档以了解所提供的保证(如果有)。

  • Definer – UTF-8 字符串,长度不少于 1 个字节或超过 512 个字节,与 Single-line string pattern 匹配。

    SQL 中视图的定义者。

  • RepresentationsViewRepresentationInput 对象的数组,长度不少于 1 个结构,不超过 10 个结构。

    包含视图方言和定义视图的查询的结构列表。

  • SubObjects – UTF-8 字符串数组,不超过 10 个字符串。

    包含构成视图的基表 ARN 列表。

ViewRepresentation 结构

包含视图方言和定义视图的查询的结构。

字段
  • Dialect – UTF-8 字符串(有效值:REDSHIFT | ATHENA | SPARK)。

    查询引擎的方言。

  • DialectVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节。

    查询引擎的方言版本。例如 3.0.0。

  • ViewOriginalText – UTF-8 字符串,不超过 409600 个字节。

    客户在 CREATE VIEW DDL 期间提供的 SELECT 查询。在对视图进行查询时不使用此 SQL(现改为使用 ViewExpandedText)。ViewOriginalText 用于 SHOW CREATE VIEW 等情况(当用户想要查看创建视图的原始 DDL 命令时)。

  • ViewExpandedText – UTF-8 字符串,不超过 409600 个字节。

    视图的扩展 SQL。引擎在处理视图查询时使用此 SQL。在视图创建过程中,引擎可能会执行操作,将 ViewOriginalText 转换为 ViewExpandedText。例如:

    • 完全限定的标识符:SELECT * from table1 -> SELECT * from db1.table1

  • ValidationConnection – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于验证视图的特定表示形式的连接的名称。

  • IsStale – 布尔值。

    标记为过时的方言不再有效,必须先进行更新,然后才能在其各自的查询引擎中进行查询。

ViewRepresentationInput 结构

包含表示形式详细信息的结构,用于更新或创建 Lake Formation 视图。

字段
  • Dialect – UTF-8 字符串(有效值:REDSHIFT | ATHENA | SPARK)。

    用于指定特定表示形式的引擎类型的参数。

  • DialectVersion – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节。

    用于指定特定表示形式的引擎版本的参数。

  • ViewOriginalText – UTF-8 字符串,不超过 409600 个字节。

    用于表示描述视图的原始 SQL 查询的字符串。

  • ValidationConnection – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于验证视图的特定表示形式的连接的名称。

  • ViewExpandedText – UTF-8 字符串,不超过 409600 个字节。

    表示 SQL 查询的字符串,该查询描述了带有扩展资源 ARN 的视图

操作

CreateTable 操作(Python:create_table)

在数据目录中创建新表定义。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要在其中创建 Table 的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要在其中创建新表的目录数据库。对于 Hive 兼容性,此名称必须是完全小写的。

  • TableInput必填:一个 TableInput 对象。

    用于定义要在目录中创建的元数据表的 TableInput 对象。

  • PartitionIndexesPartitionIndex 对象的数组,不超过 3 个结构。

    用于表中创建的分区索引和 PartitionIndex 结构的列表。

  • TransactionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #16 匹配。

    事务的 ID。

  • OpenTableFormatInput – 一个 OpenTableFormatInput 对象。

    在创建开放格式表时指定 OpenTableFormatInput 结构。

响应
  • 无响应参数。

错误
  • AlreadyExistsException

  • InvalidInputException

  • EntityNotFoundException

  • ResourceNumberLimitExceededException

  • InternalServiceException

  • OperationTimeoutException

  • GlueEncryptionException

  • ConcurrentModificationException

  • ResourceNotReadyException

UpdateTable 操作(Python:update_table)

更新数据目录中的元数据表。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的目录数据库的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • TableInput必填:一个 TableInput 对象。

    用于定义目录中的元数据表的 TableInput 对象。

  • SkipArchive – 布尔值。

    默认情况下,UpdateTable 始终在更新表之前创建一个存档版本。但是,如果 skipArchive 设置为 true,UpdateTable 不创建存档的版本。

  • TransactionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #16 匹配。

    在该 ID 处更新表内容的事务 ID。

  • VersionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    用于更新表内容的版本 ID。

  • ViewUpdateAction – UTF-8 字符串(有效值:ADD | REPLACE | ADD_OR_REPLACE | DROP)。

    更新视图时要执行的操作。

  • Force – 布尔值。

    一个标志,可以设置为 true 以忽略匹配的存储描述符和子对象匹配要求。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

  • ResourceNumberLimitExceededException

  • GlueEncryptionException

  • ResourceNotReadyException

DeleteTable 操作(Python:delete_table)

从数据目录中创建表定义。

注意

完成此操作后,您将无法再访问属于已删除的表的表版本和分区。Amazon Glue 会及时以异步方式删除这些“孤立”资源,这由服务决定。

为了确保立即删除所有相关资源,在调用 DeleteTable 之前,请使用 DeleteTableVersionBatchDeleteTableVersion 以及 DeletePartitionBatchDeletePartition,删除属于该表的所有资源。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的目录数据库的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要删除的表的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • TransactionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #16 匹配。

    在该 ID 处删除表内容的事务 ID。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

  • ResourceNotReadyException

BatchDeleteTable 操作(Python:batch_delete_table)

一次性删除多个表。

注意

完成此操作后,您将无法再访问属于已删除的表的表版本和分区。Amazon Glue 会及时以异步方式删除这些“孤立”资源,这由服务决定。

为了确保立即删除所有相关资源,在调用 BatchDeleteTable 之前,请使用 DeleteTableVersionBatchDeleteTableVersion 以及 DeletePartitionBatchDeletePartition,删除属于该表的所有资源。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要删除的表所在的目录数据库的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • TablesToDelete必填:UTF-8 字符串数组,不超过 100 个字符串。

    要删除的表的列表。

  • TransactionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #16 匹配。

    在该 ID 处删除表内容的事务 ID。

响应
  • ErrorsTableError 对象的数组。

    尝试删除指定表时遇到的错误的列表。

错误
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • GlueEncryptionException

  • ResourceNotReadyException

GetTable 操作(Python:get_table)

在指定表的数据目录中检索 Table 定义。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的目录中的数据库的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • Name必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要检索其定义的表的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • TransactionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #16 匹配。

    在该 ID 处读取表内容的事务 ID。

  • QueryAsOfTime – 时间戳。

    截至读取表内容的时间。如果未设置,将使用最近的事务提交时间。无法与 TransactionId 一起指定。

  • IncludeStatusDetails – 布尔值。

    指定是否包含与 Amazon Glue Data Catalog 视图创建或更新请求相关的状态详细信息。

响应
  • Table – 一个 对象。

    用于定义指定表的 Table 对象。

错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • GlueEncryptionException

  • ResourceNotReadyException

  • FederationSourceException

  • FederationSourceRetryableException

GetTables 操作(Python:get_tables)

在给定的 Database 中检索部分或所有表的定义。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    目录中要列出其表的数据库。对于 Hive 兼容性,此名称必须是完全小写的。

  • Expression – UTF-8 字符串,长度不超过 2048 个字节,与 Single-line string pattern 匹配。

    正则表达式模式。如果存在,则只返回其名称与模式匹配的表。

  • NextToken – UTF-8 字符串。

    延续标记 (如果这是延续调用,则包括)。

  • MaxResults – 数字(整数),不小于 1 或大于 100。

    要在单个响应中返回的表的最大数量。

  • TransactionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Custom string pattern #16 匹配。

    在该 ID 处读取表内容的事务 ID。

  • QueryAsOfTime – 时间戳。

    截至读取表内容的时间。如果未设置,将使用最近的事务提交时间。无法与 TransactionId 一起指定。

  • IncludeStatusDetails – 布尔值。

    指定是否包含与 Amazon Glue Data Catalog 视图创建或更新请求相关的状态详细信息。

  • AttributesToGet – UTF-8 字符串数组。

    指定 GetTables 调用返回的表字段。此参数不接受空列表。请求中必须包含 NAME

    有效的值组合如下:

    • NAME – 数据库中所有表的名称。

    • NAMETABLE_TYPE – 所有表的名称和表类型。

响应
  • TableList 对象的数组。

    请求的 Table 对象的列表。

  • NextToken – UTF-8 字符串。

    延续令牌 (如果当前列表片段不是最后一个,则呈现)。

错误
  • EntityNotFoundException

  • InvalidInputException

  • OperationTimeoutException

  • InternalServiceException

  • GlueEncryptionException

  • FederationSourceException

  • FederationSourceRetryableException

GetTableVersion 操作(Python:get_table_version)

检索表的指定版本。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的目录中的数据库。对于 Hive 兼容性,此名称必须是完全小写的。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • VersionId – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要检索的表版本的 ID 值。VersionID 是整数的字符串表示。每个版本都会增加 1。

响应
  • TableVersion – 一个 TableVersion 对象。

    请求的表版本。

错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • GlueEncryptionException

GetTableVersions 操作(Python:get_table_versions)

检索标识指定表的可用版本的字符串的列表。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的目录中的数据库。对于 Hive 兼容性,此名称必须是完全小写的。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • NextToken – UTF-8 字符串。

    延续标记 (如果这不是第一次调用)。

  • MaxResults – 数字(整数),不小于 1 或大于 100。

    要在一个响应中返回的表版本的最大数量。

响应
  • TableVersionsTableVersion 对象的数组。

    标识指定表的可用版本的字符串的列表。

  • NextToken – UTF-8 字符串。

    延续令牌 (如果可用版本的列表不包括最后一个)。

错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • GlueEncryptionException

DeleteTableVersion 操作(Python:delete_table_version)

删除表的指定版本。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的目录中的数据库。对于 Hive 兼容性,此名称必须是完全小写的。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • VersionId必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要删除的表版本的 ID。VersionID 是整数的字符串表示。每个版本都会增加 1。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

BatchDeleteTableVersion 操作(Python:batch_delete_table_version)

删除表的版本的指定批次。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的目录中的数据库。对于 Hive 兼容性,此名称必须是完全小写的。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表的名称。对于 Hive 兼容性,此名称必须是完全小写的。

  • VersionIds必填:UTF-8 字符串数组,不超过 100 个字符串。

    要删除版本的 ID 的列表。VersionId 是整数的字符串表示。每个版本都会增加 1。

响应
  • ErrorsTableVersionError 对象的数组。

    尝试删除指定表版本时遇到的错误的列表。

错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

SearchTables 操作(Python:search_tables)

根据表元数据以及父数据库中的属性搜索一组表。您可以根据文本或筛选条件进行搜索。

您只能基于 Lake Formation 中定义的安全策略来获取有权访问的表。您至少需要具有该表的只读访问权才能返回该表。如果您无权访问表中的所有列,则在将表列表返回给您时,不会根据这些列进行搜索。如果您有权访问这些列,但不能访问这些列中的数据,则这些列及其关联元数据将包含在搜索中。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    唯一标识符,包含 account_id

  • NextToken – UTF-8 字符串。

    延续标记 (如果这是延续调用,则包括)。

  • FiltersPropertyPredicate 对象的数组。

    键值对列表以及用于筛选搜索结果的比较器。返回与谓词匹配的所有实体。

    PropertyPredicate 结构的 Comparator 成员仅用于时间字段,并且可以省略其他字段类型。此外,当比较字符串值时,例如 Key=Name,则使用模糊匹配算法。Key 字段(例如,Name 字段值)将拆分为某些标点符号字符,例如 -、:、# 等来成为令牌。然后,每个令牌都与 PropertyPredicate 成员的 Value 完全匹配。例如,如果是 Key=NameValue=link,表名为 customer-link 并且返回 xx-link-yy,但不返回 xxlinkyy

  • SearchText – 值字符串,不超过 1024 个字节。

    一个用于文本搜索的字符串。

    根据与值的精确匹配在引号筛选器中指定值。

  • SortCriteriaSortCriterion 对象的数组,不超过 1 个结构。

    用于按字段名称对结果进行升序或降序排序的条件的列表。

  • MaxResults – 数字(整数),不小于 1 或大于 1000。

    要在单个响应中返回的表的最大数量。

  • ResourceShareType – UTF-8 字符串(有效值:FOREIGN | ALL | FEDERATED)。

    允许您指定要搜索与您的账户共享的表。允许的值是 FOREIGNALL

    • 如果设置为 FOREIGN,将搜索与您的账户共享的表。

    • 如果设置为 ALL,将列出与您的账户共享的表,以及本账户中的表。

  • IncludeStatusDetails – 布尔值。

    指定是否包含与 Amazon Glue Data Catalog 视图创建或更新请求相关的状态详细信息。

响应
  • NextToken – UTF-8 字符串。

    延续令牌 (如果当前列表片段不是最后一个,则呈现)。

  • TableList 对象的数组。

    请求的 Table 对象的列表。SearchTables 响应仅返回您有权访问的表。

错误
  • InternalServiceException

  • InvalidInputException

  • OperationTimeoutException

GetPartitionIndexes 操作(Python:get_partition_indexes)

检索与表关联的分区索引。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    指定要从中检索分区索引的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    指定要为其检索分区索引的表的名称。

  • NextToken – UTF-8 字符串。

    延续标记 (如果这是延续调用,则包括)。

响应
  • PartitionIndexDescriptorListPartitionIndexDescriptor 对象的数组。

    索引描述符的列表。

  • NextToken – UTF-8 字符串。

    延续令牌 (如果当前列表片段不是最后一个,则呈现)。

错误
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

  • EntityNotFoundException

  • ConflictException

CreatePartitionIndex 操作(Python:create_partition_index)

在现有表中创建指定的分区索引。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    指定要创建分区索引的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    指定要创建分区索引的表的名称。

  • PartitionIndex必填:一个 PartitionIndex 对象。

    指定 PartitionIndex 结构在现有表中创建分区索引。

响应
  • 无响应参数。

错误
  • AlreadyExistsException

  • InvalidInputException

  • EntityNotFoundException

  • ResourceNumberLimitExceededException

  • InternalServiceException

  • OperationTimeoutException

  • GlueEncryptionException

DeletePartitionIndex 操作(Python:delete_partition_index)

在现有表中删除指定的分区索引。

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    表所在的数据目录的 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    指定要从中删除分区索引的数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    指定要从中删除分区索引的表的名称。

  • IndexName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    要删除的分区索引的名称。

响应
  • 无响应参数。

错误
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

  • EntityNotFoundException

  • ConflictException

  • GlueEncryptionException

GetColumnStatisticsForTable 操作(Python:get_column_statistics_for_table)

检索列的表统计数据信息。

此操作所需的 Identity and Access Management(IAM)权限是 GetTable

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    所涉分区所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分区所在的目录数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分区的表的名称。

  • ColumnNames必填:UTF-8 字符串数组,不超过 100 个字符串。

    列名称的列表。

响应
  • ColumnStatisticsListColumnStatistics 对象的数组。

    列统计数据列表。

  • ErrorsColumnError 对象的数组。

    检索失败的 ColumnStatistics 的列表。

错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • GlueEncryptionException

UpdateColumnStatisticsForTable 操作(Python:update_column_statistics_for_table)

创建或更新列的表统计数据信息。

此操作所需的 Identity and Access Management(IAM)权限是 UpdateTable

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    所涉分区所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分区所在的目录数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分区的表的名称。

  • ColumnStatisticsList必填:ColumnStatistics 对象的数组,不超过 25 个结构。

    列统计数据的列表。

响应
错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • GlueEncryptionException

DeleteColumnStatisticsForTable 操作(Python:delete_column_statistics_for_table)

检索列的表统计数据信息。

此操作所需的 Identity and Access Management(IAM)权限是 DeleteTable

请求
  • CatalogId – 目录 id 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    所涉分区所在的数据目录的 ID。如果没有提供,则默认情况下使用 Amazon 账户 ID。

  • DatabaseName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分区所在的目录数据库的名称。

  • TableName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    分区的表的名称。

  • ColumnName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    列的名称。

响应
  • 无响应参数。

错误
  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

  • GlueEncryptionException