压缩格式 - Amazon Athena
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

压缩格式

本节中列出的压缩格式用于 CREATE TABLE 查询。对于 CTAS 查询,Athena 支持 GZIP 和 SNAppy(针对以 Parquet 和 ORC 格式存储的数据)。如果您省略了格式,则默认情况下使用 GZIP。有关更多信息,请参阅CREATE TABLE AS

Athena 支持以下压缩格式:

  • SNAPPY— Parquet 数据存储格式文件的默认压缩格式。

  • ZLIB— ORC 数据存储格式文件的默认压缩格式。

  • LZO— 使用伦佩尔-齐夫-上胡默算法的格式。

  • GZIP— Athena 可以直接查询此格式的数据,如果数据文件具有.gz扩展名。不需要任何特殊指令CREATE TABLE网页。

  • BZIP2— 使用入室-惠勒算法的格式。

    注意

    在极少数情况下,Athena 引擎版本 1 中的已知问题可能会导致记录在BZIP2格式。出于这个原因,使用BZIP2格式不推荐使用 Athena 引擎版本 1。

指定压缩格式

若要指定针对Parquet SerDe或者ORC SerDeCREATE TABLE语句,请使用TBLPROPERTI子句。若要指定镶木地板或 ORC 的压缩格式,请在CTAS语句,请使用WITH子句。有关更多信息,请参阅CTAS 表属性Example: Specifying Data Storage and Compression Formats

注释和资源

  • 对于 CSV、TSV 和 JSON 格式的数据,Athena 根据文件扩展名确定压缩类型。如果不存在文件扩展名,则 Athena 将数据视为未压缩的纯文本。如果您的数据已压缩,请确保文件名包含压缩扩展名,例如 gz

  • 不支持 ZIP 文件格式。

  • 对于从 Athena 查询 Amazon Kinesis Data Firehose 日志,支持的格式包括 GZIP 压缩或采用 SNAppY 压缩的 ORC 文件。

  • 有关使用压缩的更多信息,请参阅 Amazon 大数据博客帖子面向 Amazon Athena 的 10 大性能优化提示中的第 3 部分(“压缩和拆分文件”)。