Amazon DynamoDB
开发人员指南 (API Version 2012-08-10)
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。请点击 Amazon AWS 入门,可查看中国地区的具体差异

使用数据压缩

当您使用 Hive 在不同数据源之间复制数据时,您可以请求实时数据压缩。Hive 提供多种压缩编解码器。您可以在 Hive 会话期间选择任意一种。当您执行此操作时,数据以指定的格式压缩。

以下示例使用 Lempel-Ziv-Oberhumer (LZO) 算法压缩数据。

Copy
SET hive.exec.compress.output=true; SET io.seqfile.compression.type=BLOCK; SET mapred.output.compression.codec = com.hadoop.compression.lzo.LzopCodec; CREATE EXTERNAL TABLE lzo_compression_table (line STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' LOCATION 's3://bucketname/path/subpath/'; INSERT OVERWRITE TABLE lzo_compression_table SELECT * FROM hiveTableName;

Amazon S3 中生成的文件将以系统生成的名称命名,以 .lzo 结尾 (例如 8d436957-57ba-4af7-840c-96c2fc7bb6f5-000000.lzo)。

可用的压缩编解码器包括:

  • org.apache.hadoop.io.compress.GzipCodec

  • org.apache.hadoop.io.compress.DefaultCodec

  • com.hadoop.compression.lzo.LzoCodec

  • com.hadoop.compression.lzo.LzopCodec

  • org.apache.hadoop.io.compress.BZip2Codec

  • org.apache.hadoop.io.compress.SnappyCodec