常见数据类型 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

常见数据类型

常见数据类型介绍 AWS Glue 中的各种常见的数据类型。

Tag 结构

Tag 对象表示用户可分配给 AWS 资源的标签。每个标签都包含您定义的一个键和一个可选值。

有关标签以及控制对 AWS Glue 中资源的访问的更多信息,请参阅开发人员指南中的 AWS Glue 中的 AWS 标签指定 AWS Glue 资源ARNs。

Fields

  • key – UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    标签键。在对象上创建标签时需要这个键。键区分大小写,并且不得包含前缀 aws。

  • value – UTF-8 字符串,不超过 256 个字节。

    标签值。在对象上创建标签时,值是可选的。值区分大小写,并且不得包含前缀 aws。

DecimalNumber结构

包含以十进制格式表示的数字值。

Fields

  • UnscaledValue必需:Blob。

    未标定的数字值。

  • Scale必需:数字(整数)。

    确定小数点落在未标定的值中的位置的标定。

ErrorDetail结构

包含有关错误的详细信息。

Fields

PropertyPredicate结构

定义属性谓词。

Fields

  • Key – 值字符串,不超过 1024 个字节。

    属性的键。

  • Value – 值字符串,不超过 1024 个字节。

    属性的值。

  • Comparator – UTF-8 字符串(有效值:EQUALS | GREATER_THAN | LESS_THAN | GREATER_THAN_EQUALS | LESS_THAN_EQUALS)。

    用于将此属性与其他属性进行比较的比较运算符。

ResourceUri结构

函数资源的 URIs。

Fields

  • ResourceType – UTF-8 字符串(有效值:JAR | FILE | ARCHIVE)。

    资源的类型。

  • Uri – 统一资源标识符 (uri),不少于 1 个字节或超过 1024 个字节,与 URI address multi-line string pattern 匹配。

    用于访问资源的 URI。

ColumnStatistics结构

表示为表或分区生成的列级统计数据。

Fields

  • ColumnName必需:UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    统计信息所属的列的名称。

  • ColumnType必需:键入名称,不超过 20000 个字节,与 Single-line string pattern 匹配。

    列的数据类型。

  • AnalyzedTime必需:时间戳。

    生成列统计数据的时间的时间戳。

  • StatisticsData必需:一个 ColumnStatisticsData 对象。

    包含统计数据值的 ColumnStatisticData 对象。

ColumnStatisticsError结构

封装失败的 ColumnStatistics 对象和失败原因。

Fields

  • ColumnStatistics – 一个 ColumnStatistics 对象。

    列的 ColumnStatistics

  • Error – 一个 ErrorDetail 对象。

    包含操作失败原因的错误消息。

ColumnError结构

封装失败的列名称以及失败的原因。

Fields

  • ColumnName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    失败的列的名称。

  • Error – 一个 ErrorDetail 对象。

    包含操作失败原因的错误消息。

ColumnStatisticsData结构

包含各个类型的列统计数据。只应设置一个数据对象并由 Type 属性指示。

Fields

BooleanColumnStatisticsData结构

定义布尔数据列支持的列统计数据。

Fields

  • NumberOfTrues必需:数字(长),至多为“无”。

    列中 true 值的数量。

  • NumberOfFalses必需:数字(长),至多为“无”。

    列中的 false 值的数量。

  • NumberOfNulls必需:数字(长),至多为“无”。

    列中的 null 值的数量。

DateColumnStatisticsData结构

定义时间戳数据列支持的列统计信息。

Fields

  • MinimumValue – 时间戳。

    列中的最低值。

  • MaximumValue – 时间戳。

    列中的最高值。

  • NumberOfNulls必需:数字(长),至多为“无”。

    列中的 null 值的数量。

  • NumberOfDistinctValues必需:数字(长),至多为“无”。

    列中的不同值的数量。

DecimalColumnStatisticsData结构

定义固定点数数据列支持的列统计信息。

Fields

  • MinimumValue – 一个 DecimalNumber 对象。

    列中的最低值。

  • MaximumValue – 一个 DecimalNumber 对象。

    列中的最高值。

  • NumberOfNulls必需:数字(长),至多为“无”。

    列中的 null 值的数量。

  • NumberOfDistinctValues必需:数字(长),至多为“无”。

    列中的不同值的数量。

DoubleColumnStatisticsData结构

定义浮点数数据列支持的列统计信息。

Fields

  • MinimumValue – 数字(双精度)。

    列中的最低值。

  • MaximumValue – 数字(双精度)。

    列中的最高值。

  • NumberOfNulls必需:数字(长),至多为“无”。

    列中的 null 值的数量。

  • NumberOfDistinctValues必需:数字(长),至多为“无”。

    列中的不同值的数量。

LongColumnStatisticsData结构

定义整数数据列支持的列统计数据。

Fields

  • MinimumValue – 数字 (long)。

    列中的最低值。

  • MaximumValue – 数字 (long)。

    列中的最高值。

  • NumberOfNulls必需:数字(长),至多为“无”。

    列中的 null 值的数量。

  • NumberOfDistinctValues必需:数字(长),至多为“无”。

    列中的不同值的数量。

StringColumnStatisticsData结构

定义字符序列数据值支持的列统计信息。

Fields

  • MaximumLength必需:数字(长),至多为“无”。

    列中最长字符串的大小。

  • AverageLength必需:数字(双精度),至多为“无”。

    列中的平均字符串长度。

  • NumberOfNulls必需:数字(长),至多为“无”。

    列中的 null 值的数量。

  • NumberOfDistinctValues必需:数字(长),至多为“无”。

    列中的不同值的数量。

BinaryColumnStatisticsData结构

定义位序列数据值支持的列统计信息。

Fields

  • MaximumLength必需:数字(长),至多为“无”。

    列中最长位序列的大小。

  • AverageLength必需:数字(双精度),至多为“无”。

    列中的平均位序列长度。

  • NumberOfNulls必需:数字(长),至多为“无”。

    列中的 null 值的数量。

字符串模式

API 使用以下正则表达式来定义对于各种字符串参数和成员有效的内容:

  • 单行字符串模式 –“[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\t]*

  • URI 地址多行字符串模式 –“[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\n\t]*

  • Logstash Grok 字符串模式 –“[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\t]*

  • 标识符字符串模式 –“[A-Za-z_][A-Za-z0-9_]*

  • AWS Glue ARN 字符串模式 –“arn:aws:glue:.*

  • AWS IAM ARN 字符串模式 –“arn:aws:iam::\d{12}:role/.*

  • 版本字符串模式 –“^[a-zA-Z0-9-_]+$

  • 日志组字符串模式 –“[\.\-_/#A-Za-z0-9]+

  • 日志流字符串模式 –“[^:*]*

  • 自定义字符串模式 #10 –“[^\r\n]

  • 自定义字符串模式 #11 –“[a-f0-9]{8}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{12}

  • 自定义字符串模式 #12 –“[a-zA-Z0-9-_$#.]+

  • 自定义字符串模式 #13 –“^[2-3]$

  • 自定义字符串模式 #14 –“^\w+\.\w+\.\w+$

  • 自定义字符串模式 #15 –“^\w+\.\w+$

  • 自定义字符串模式 #16 –“arn:aws:kms:.*

  • 自定义字符串模式 #17 –“.*\S.*

  • 自定义字符串模式 #18 –“[a-zA-Z0-9+-=._./@]+

  • 自定义字符串模式 #19 –“[1-9][0-9]*|[1-9][0-9]*-[1-9][0-9]*