常见数据类型 - AWS Glue
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

常见数据类型

常见数据类型介绍 AWS Glue 中的各种常见的数据类型。

Tag 结构

Tag 对象表示用户可分配给 AWS 资源的标签。每个标签都包含您定义的一个键和一个可选值。

有关标签以及如何控制对 AWS Glue 中资源的访问的更多信息,请参阅开发人员指南中的 AWS Glue 中的 AWS 标签指定 AWS Glue 资源 ARN

Fields

  • key – UTF-8 字符串,长度不少于 1 个字节或超过 128 个字节。

    标签键。在对象上创建标签时需要这个键。键区分大小写,并且不得包含前缀 aws。

  • value – UTF-8 字符串,不超过 256 个字节。

    标签值。在对象上创建标签时,值是可选的。值区分大小写,并且不得包含前缀 aws。

DecimalNumber 结构

包含以十进制格式表示的数字值。

Fields

  • UnscaledValue:必需 Blob。

    未标定的数字值。

  • Scale:必需 数字(整数)。

    确定小数点落在未标定的值中的位置的标定。

ErrorDetail 结构

包含有关错误的详细信息。

Fields

PropertyPredicate 结构

定义属性谓词。

Fields

  • Key— 值字符串,不超过 1024 个字节。

    属性的键。

  • Value— 值字符串,不超过 1024 个字节。

    属性的值。

  • Comparator— UTF-8 字符串(有效值:EQUALS|GREATER_THAN|LESS_THAN|GREATER_THAN_EQUALS|LESS_THAN_EQUALS)。

    用于将此属性与其他属性进行比较的比较运算符。

ResourceUri 结构

函数资源的 URI。

Fields

  • ResourceType— UTF-8 字符串(有效值:JAR|FILE|ARCHIVE)。

    资源的类型。

  • Uri - 统一资源标识符 (uri),不少于 1 个字节或超过 1024 个字节,与 URI address multi-line string pattern 匹配。

    用于访问资源的 URI。

列统计结构

表示表或分区生成的列级统计信息。

Fields

  • ColumnName:必需 UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与匹配。Single-line string pattern

    统计信息所属的列的名称。

  • ColumnType:必需 键入名称,长度不超过 20000 个字节,与匹配。Single-line string pattern

    列的数据类型。

  • AnalyzedTime:必需 时间戳。

    生成列统计信息的时间戳。

  • StatisticsData:必需 一个 列统计数据 对象。

    AColumnStatisticData对象,其中包含统计数据值。

列统计服务器结构

封装ColumnStatistics对象以及失败原因。

Fields

  • ColumnStatistics— A列统计对象。

    这些区域有:ColumnStatistics对于是必需的。

  • Error – 一个 ErrorDetail 对象。

    包含操作失败原因的错误消息。

列错结构

封装失败的列名称和失败原因。

Fields

  • ColumnName – UTF-8 字符串,长度不少于 1 个字节或超过 255 个字节,与 Single-line string pattern 匹配。

    失败的列的名称。

  • Error – 一个 ErrorDetail 对象。

    包含操作失败原因的错误消息。

列统计数据结构

包含单个类型的列统计数据。只应设置一个数据对象,并由Type属性。

Fields

布尔列统计数据结构

定义布尔数据列支持的列统计信息。

Fields

  • NumberOfTrues:必需 数字(长),至多为 “无”。

    列中真实值的数量。

  • NumberOfFalses:必需 数字(长),至多为 “无”。

    列中的 false 值数量。

  • NumberOfNulls:必需 数字(长),至多为 “无”。

    列中空值的数量。

DateColumn 统计数据结构

定义时间戳数据列支持的列统计信息。

Fields

  • MinimumValue – 时间戳.

    列中的最低值。

  • MaximumValue – 时间戳.

    列中的最高值。

  • NumberOfNulls:必需 数字(长),至多为 “无”。

    列中空值的数量。

  • NumberOfDistinctValues:必需 数字(长),至多为 “无”。

    列中的唯一值的数量。

十数列统计数据结构

定义固定点数数据列支持的列统计信息。

Fields

  • MinimumValue— ADecimalNumber对象。

    列中的最低值。

  • MaximumValue— ADecimalNumber对象。

    列中的最高值。

  • NumberOfNulls:必需 数字(长数),至多为 “无”。

    列中空值的数量。

  • NumberOfDistinctValues:必需 数字(长数),至多为 “无”。

    列中的唯一值的数量。

双数统计数据结构

定义浮点数数据列支持的列统计信息。

Fields

  • MinimumValue – 数字 (double)。

    列中的最低值。

  • MaximumValue – 数字 (double)。

    列中的最高值。

  • NumberOfNulls:必需 数字(长数),至多为 “无”。

    列中空值的数量。

  • NumberOfDistinctValues:必需 数字(长数),至多为 “无”。

    列中的唯一值的数量。

Long列统计数据结构

定义整数数据列支持的列统计信息。

Fields

  • MinimumValue – 数字 (long)。

    列中的最低值。

  • MaximumValue – 数字 (long)。

    列中的最高值。

  • NumberOfNulls:必需 数字(长数),至多为 “无”。

    列中空值的数量。

  • NumberOfDistinctValues:必需 数字(长数),至多为 “无”。

    列中的唯一值的数量。

字符串列统计数据结构

定义字符序列数据值支持的列统计信息。

Fields

  • MaximumLength:必需 数字(长数),至多为 “无”。

    列中最长字符串的大小。

  • AverageLength:必需 数字(双数),至多为 “无”。

    列中的平均字符串长度。

  • NumberOfNulls:必需 数字(长数),至多为 “无”。

    列中空值的数量。

  • NumberOfDistinctValues:必需 数字(长数),至多为 “无”。

    列中的唯一值的数量。

二数列统计数据结构

定义位序列数据值支持的列统计信息。

Fields

  • MaximumLength:必需 数字(长数),至多为 “无”。

    列中最长位序列的大小。

  • AverageLength:必需 数字(双数),至多为 “无”。

    列中的平均位序列长度。

  • NumberOfNulls:必需 数字(长数),至多为 “无”。

    列中空值的数量。

字符串模式

API 使用以下正则表达式来定义对于各种字符串参数和成员有效的内容:

  • 单行字符串模式-”[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\t]*"

  • URI 地址多行字符串模式-”[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\n\t]*"

  • Logstash Grok 字符串模式-”[\u0020-\uD7FF\uE000-\uFFFD\uD800\uDC00-\uDBFF\uDFFF\r\t]*"

  • 标识符字符串模式-”[A-Za-z_][A-Za-z0-9_]*"

  • AWS Glue ARN 字符串模式-”arn:aws:glue:.*"

  • AWS IAM ARN 字符串模式-”arn:aws:iam::\d{12}:role/.*"

  • 版本字符串模式-”^[a-zA-Z0-9-_]+$"

  • 日志组字符串模式-”[\.\-_/#A-Za-z0-9]+"

  • 日志流字符串模式-”[^:*]*"

  • 自定义字符串模式 #10 —”[^\r\n]"

  • 自定义字符串模式 #11 —”[a-f0-9]{8}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{12}"

  • 自定义字符串模式 #12 —”[a-zA-Z0-9-_$#.]+"

  • 自定义字符串模式 #13 —”^[2-3]$"

  • 自定义字符串模式 #14 —”^\w+\.\w+\.\w+$"

  • 自定义字符串模式 #15 —”^\w+\.\w+$"

  • 自定义字符串模式 #16 —”arn:aws:kms:.*"

  • 自定义字符串模式 #17 —”arn:aws[^:]*:iam::[0-9]*:role/.+"

  • 自定义字符串模式 #18 —”[\.\-_A-Za-z0-9]+"

  • 自定义字符串模式 #19 —”^s3://([^/]+)/([^/]+/)*([^/]+)$"

  • 自定义字符串模式 #20 —”.*\S.*"

  • 自定义字符串模式 #21 —”[a-zA-Z0-9+-=._./@]+"

  • 自定义字符串模式 #22 —”[1-9][0-9]*|[1-9][0-9]*-[1-9][0-9]*"