爬网程序在数据目录表上设置的参数 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

爬网程序在数据目录表上设置的参数

这些表属性由 Amazon Glue 爬网程序设置。我们希望用户使用 classificationcompressionType 属性。其他属性(包括估算表大小)用于内部计算,我们无法保证其准确性或客户使用案例适用性。更改这些参数可能会改变爬网程序的行为,我们不支持此工作流程。

属性键 属性值
UPDATED_BY_CRAWLER

执行更新的爬网程序的名称。

connectionName

用于连接到数据存储的爬网程序在“数据目录”中的连接名称。

recordCount

根据文件大小和标题估算表中记录的数量。

skip.header.line.count

跳过行以跳过标题。在被归类为 CSV 的表上设置。

CrawlerSchemaSerializerVersion

供内部使用

classification

由爬网程序推断数据格式。更多有关 Amazon Glue 爬网程序支持的数据格式的信息,请参阅 Amazon Glue 中的内置分类器

CrawlerSchemaDeserializerVersion

供内部使用

sizeKey

已爬取的表中文件的组合大小。

averageRecordSize

表中行的平均大小(字节)。

compressionType

对表中的数据使用的压缩类型。更多有关 Amazon Glue 爬网程序支持的压缩类型的信息,请参阅 Amazon Glue 中的内置分类器

typeOfData

filetableview

objectCount

Amazon S3 表路径下的对象数量。

这些额外的表属性是由 Amazon Glue 爬网程序为 Snowflake 数据存储设置的。

属性键 属性值
aws:RawTableLastAltered

记录 Snowflake 表上次修改的时间戳。

ViewOriginalText

查看 SQL 语句。

ViewExpandedText

查看以 Base64 格式编码的 SQL 语句。

ExternalTable:S3Location

Snowflake 外部表的 Amazon S3 位置。

ExternalTable:FileFormat

Snowflake 外部表的 Amazon S3 文件格式。

这些额外的表属性是由 Amazon Glue 爬网程序为 Amazon Redshift、Microsoft SQL Server、MySQL、PostgreSQL 和 Oracle 等 JDBC 类型的数据存储设置的。

属性键 属性值
aws:RawType

当爬网程序将数据存储在数据目录中时,它会将数据类型转换为与 Hive 兼容的类型,这往往会导致有关本机数据类型的信息丢失。爬网程序输出 aws:RawType 参数,以提供原生级别的数据类型。

aws:RawColumnComment

如果注释与数据库中的列相关联,则爬网程序会在目录表中输出相应的注释。注释字符串被截断为 255 个字节。

Microsoft SQL Server 不支持注释。

aws:RawTableComment

如果注释与数据库中的列相关联,则爬网程序会在目录表中输出相应的注释。注释字符串被截断为 255 个字节。

Microsoft SQL Server 不支持注释。