本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
压缩格式
本节中列出的压缩格式用于 CREATE TABLE 查询。对于 CTAS 查询, Athena 支持 GZIP 和 SNAPPY(针对以 Parquet 和 ORC 格式存储的数据)。如果您省略了格式,则默认情况下使用 GZIP。有关更多信息,请参阅CREATE TABLE AS.
Athena 支持以下压缩格式:
-
SNAPPY
– Parquet 数据存储格式文件的默认压缩格式。 -
ZLIB
– ORC 数据存储格式文件的默认压缩格式。 -
LZO
– 使用 Lempel-Ziv-Oberhumer 算法的格式。 -
GZIP
– Athena 如果数据文件具有.gz
扩展,则 可以直接查询此格式的数据。CREATE TABLE
语句中不需要特殊指令。 -
BZIP2
– 使用 Burrows-Wheeler 算法的格式。注意 在极少数情况下, 中的已知问题可能会导致在使用
BZIP2
格式时无提示删除记录。因此BZIP2
,不建议在 中使用格式。
指定压缩格式
要在ParquetSerDe语句 ORC SerDe 中为 CREATE TABLE
或 指定压缩格式,请使用 TBLPROPERTIES 子句。要在 CTAS 语句中为 Parquet 或 ORC 指定压缩格式,请使用 WITH
子句。有关更多信息,请参阅 CTAS 表属性 和 Example: Specifying Data Storage and Compression Formats.
注释和资源
-
对于 CSV、TSV 和 JSON 格式的数据,Athena 根据文件扩展名确定压缩类型。如果不存在文件扩展名,则 Athena 将数据视为未压缩的纯文本。如果您的数据已压缩,请确保文件名包含压缩扩展名,例如
gz
. -
不支持 ZIP 文件格式。
-
对于从 Amazon Kinesis Data Firehose 查询 Athena 日志,支持的格式包括 GZIP 压缩或采用 SNAPPY 压缩的 ORC 文件。
-
有关使用压缩的更多信息,请参阅 AWS 大数据博客帖子面向 Amazon Athena 的 10 大性能优化提示
.中的第 3 部分(“压缩和拆分文件”)。