常见数据类型 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

常见数据类型

常见数据类型介绍 Amazon Glue 中的各种常见的数据类型。

Tag 结构

Tag 对象表示用户可分配给 Amazon 资源的标签。每个标签都包含定义的一个密钥和一个可选值。

有关标签以及如何控制对 Amazon Glue 中资源的访问的更多信息,请参阅开发人员指南中的 Amazon Glue 中的 Amazon 标签指定 Amazon Glue 资源 ARN

字段
  • key – UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    标签键。在对象上创建标签时需要这个键。键区分大小写,并且不得包含前缀 aws。

  • value – UTF-8 字符串,不超过 256 个字节。

    标签值。在对象上创建标签时,值是可选的。值区分大小写,并且不得包含前缀 aws。

DecimalNumber 结构

包含以十进制格式表示的数字值。

字段
  • UnscaledValue必填:Blob。

    未标定的数字值。

  • Scale必填:数字(整数)。

    确定小数点落在未标定的值中的位置的标定。

ErrorDetail 结构

包含有关错误的详细信息。

字段

PropertyPredicate 结构

定义属性谓词。

字段
  • Key – 值字符串,不超过 1024 个字节。

    属性的键。

  • Value – 值字符串,不超过 1024 个字节。

    属性的值。

  • Comparator – UTF-8 字符串(有效值:EQUALS | GREATER_THAN | LESS_THAN | GREATER_THAN_EQUALS | LESS_THAN_EQUALS)。

    用于将此属性与其他属性进行比较的比较运算符。

ResourceUri 结构

函数资源的 URI。

字段
  • ResourceType – UTF-8 字符串(有效值:JAR | FILE | ARCHIVE)。

    资源的类型。

  • Uri - 统一资源标识符 (uri),不少于 1 个字节或超过 1024 个字节,与 URI address multi-line string pattern 匹配。

    用于访问资源的 URI。

ColumnStatistics 结构

表示表或分区生成的列级统计数据。

字段
  • ColumnName必填:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    统计数据所属列的名称。

  • ColumnType必填:类型名称,长度不超过 20000 个字节,与 Single-line string pattern 匹配。

    列的数据类型。

  • AnalyzedTime必填:时间戳。

    生成列统计数据的时间戳。

  • StatisticsData必填:一个 ColumnStatisticsData 对象。

    ColumnStatisticData 对象,其中包含统计数据值。

ColumnStatisticsError 结构

封装失败的 ColumnStatistics 对象以及失败原因。

字段
  • ColumnStatistics – 一个 ColumnStatistics 对象。

    列的 ColumnStatistics

  • Error – 一个 ErrorDetail 对象。

    包含操作失败原因的错误消息。

ColumnError 结构

封装失败的列名称以及失败原因。

字段
  • ColumnName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    封装失败的列名称。

  • Error – 一个 ErrorDetail 对象。

    包含操作失败原因的错误消息。

ColumnStatisticsData 结构

包含单个类型的列统计数据。只应设置一个数据对象,并由 Type 属性指示。

字段
  • Type必填:UTF-8 字符串(有效值:BOOLEAN | DATE | DECIMAL | DOUBLE | LONG | STRING | BINARY)。

    列统计数据的类型。

  • BooleanColumnStatisticsData – 一个 BooleanColumnStatisticsData 对象。

    布尔值列统计数据。

  • DateColumnStatisticsData – 一个 DateColumnStatisticsData 对象。

    日期列统计数据。

  • DecimalColumnStatisticsData – 一个 DecimalColumnStatisticsData 对象。

    十进制列统计数据。其中的 UnscaledValues 是 Base64 编码的二进制对象,存储十进制未缩放值的大端二进制补码表示法。

  • DoubleColumnStatisticsData – 一个 DoubleColumnStatisticsData 对象。

    双列统计数据。

  • LongColumnStatisticsData – 一个 LongColumnStatisticsData 对象。

    长列统计数据。

  • StringColumnStatisticsData – 一个 StringColumnStatisticsData 对象。

    字符串列统计数据。

  • BinaryColumnStatisticsData – 一个 BinaryColumnStatisticsData 对象。

    二进制列统计数据。

BooleanColumnStatisticsData 结构

定义支持布尔值数据列的列统计数据。

字段
  • NumberOfTrues必填:数字(长度),至多为“无”。

    列中的 True 值数量。

  • NumberOfFalses必填:数字(长度),至多为“无”。

    列中的 False 数量。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

DateColumnStatisticsData 结构

定义支持时间戳数据列的列统计数据。

字段
  • MinimumValue – 时间戳。

    列中的最低值。

  • MaximumValue – 时间戳。

    列中的最高值。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

DecimalColumnStatisticsData 结构

定义支持固定点数数据列的列统计数据。

字段
  • MinimumValue – 一个 DecimalNumber 对象。

    列中的最低值。

  • MaximumValue – 一个 DecimalNumber 对象。

    列中的最高值。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

DoubleColumnStatisticsData 结构

定义支持浮动点数数据列的列统计数据。

字段
  • MinimumValue – 数字(double)。

    列中的最低值。

  • MaximumValue – 数字(double)。

    列中的最高值。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

LongColumnStatisticsData 结构

定义支持整数数据列的列统计数据。

字段
  • MinimumValue – 数字(长型)。

    列中的最低值。

  • MaximumValue – 数字(长型)。

    列中的最高值。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

StringColumnStatisticsData 结构

定义支持字符序列数据值的列统计数据。

字段
  • MaximumLength必填:数字(长度),至多为“无”。

    列中最长字符串的长度。

  • AverageLength必填:数字(长度),至多为“无”。

    列中的平均字符串长度。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

  • NumberOfDistinctValues必填:数字(长度),至多为“无”。

    列中的独特值的数量。

BinaryColumnStatisticsData 结构

定义支持位序列数据值的列统计数据。

字段
  • MaximumLength必填:数字(长度),至多为“无”。

    列中最长位序列的长度。

  • AverageLength必填:数字(长度),至多为“无”。

    列中的平均位序列长度。

  • NumberOfNulls必填:数字(长度),至多为“无”。

    列中空值的数量。

字符串模式

API 使用以下正则表达式来定义对于各种字符串参数和成员有效的内容:

  • 单行字符串模式 -“[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\t]*

  • URI 地址多行字符串模式 -“[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\n\t]*

  • Logstash Grok 字符串模式 -“[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\t]*

  • 标识符字符串模式 -“[A-Za-z_][A-Za-z0-9_]*

  • AWS IAM ARN 字符串模式 –“arn:aws:iam::\d{12}:role/.*

  • 版本字符串模式 -“^[a-zA-Z0-9-_]+$

  • 日志组字符串模式 -“[\.\-_/#A-Za-z0-9]+

  • 日志流字符串模式 -“[^:*]*

  • 自定义字符串模式 #10 –“[^\r\n]

  • 自定义字符串模式 #11 –“^arn:aws(-(cn|us-gov|iso(-[bef])?))?:secretsmanager:.*$

  • 自定义字符串模式 #12 –“^(https?)://[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|]

  • 自定义字符串模式 #13 –“\S+

  • 自定义字符串模式 #14 –“^(https?):\/\/[^\s/$.?#].[^\s]*$

  • 自定义字符串模式 #15 –“^subnet-[a-z0-9]+$

  • 自定义字符串模式 #16 –“[\p{L}\p{N}\p{P}]*

  • 自定义字符串模式 #17 –“[a-f0-9]{8}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{12}

  • 自定义字符串模式 #18 –“[a-zA-Z0-9-_$#.]+

  • 自定义字符串模式 #19 –“^\w+\.\w+\.\w+$

  • 自定义字符串模式 #20 –“^\w+\.\w+$

  • 自定义字符串模式 #21 –“^([2-3]|3[.]9)$

  • 自定义字符串模式 #22 –“arn:(aws|aws-us-gov|aws-cn):glue:.*

  • 自定义字符串模式 #23 –“(^arn:aws:iam::\w{12}:root)

  • 自定义字符串模式 #24 –“^arn:aws(-(cn|us-gov|iso(-[bef])?))?:iam::[0-9]{12}:role/.+

  • 自定义字符串模式 #25 –“arn:aws:kms:.*

  • 自定义字符串模式 #26 –“arn:aws[^:]*:iam::[0-9]*:role/.+

  • 自定义字符串模式 #27 –“[\.\-_A-Za-z0-9]+

  • 自定义字符串模式 #28 –“^s3://([^/]+)/([^/]+/)*([^/]+)$

  • 自定义字符串模式 #29 –“.*

  • 自定义字符串模式 #30 –“^(Sun|Mon|Tue|Wed|Thu|Fri|Sat):([01]?[0-9]|2[0-3])$

  • 自定义字符串模式 #31 –“[a-zA-Z0-9_.-]+

  • 自定义字符串模式 #32 –“[A-Z][A-Za-z\.]+

  • 自定义字符串模式 #33 –“.*\S.*

  • 自定义字符串模式 #34 –“[a-zA-Z0-9-=._/@]+

  • 自定义字符串模式 #35 – "[1-9][0-9]*|[1-9][0-9]*-[1-9][0-9]*"

  • 自定义字符串模式 36 –“[\s\S]*

  • 自定义字符串模式 37 –“([\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF]|[^\S\r\n"'= ;])*

  • 自定义字符串模式 #38 –“^[A-Z\_]+$

  • 自定义字符串模式 #39 –“^[A-Za-z0-9]+$

  • 自定义字符串模式 #40 –“[*A-Za-z0-9_-]*

  • 自定义字符串模式 #41 –“([\u0020-\u007E\r\s\n])*

  • 自定义字符串模式 #42 –“[A-Za-z0-9_-]*

  • 自定义字符串模式 #43 –“([\u0009\u000B\u000C\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF])*

  • 自定义字符串模式 #44 –“([\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\s])*

  • 自定义字符串模式 #45 –“([^\r\n])*