Text255 和 Text32k 编码 - Amazon Redshift
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Text255 和 Text32k 编码

Text255 和 text32k 编码对于压缩经常出现相同单词的 VARCHAR 列非常有用。系统会为磁盘上的每个列数值数据块创建单独的唯一单词词典。(一个 Amazon Redshift 磁盘数据块占用 1 MB 空间。) 词典包含列中前 245 个唯一单词。在磁盘上,这些单词会被替换成代表这 245 个值之一的 1 字节索引值,词典中未表示的任意单词以未压缩方式存储。这一过程针对每个 1 MB 磁盘数据块重复。如果索引词在列中经常出现,则该列会产生高压缩率。

text32k 编码的原理也是如此,但每个数据块的词典并不捕获特定数量的单词。该词典为其找到的每个唯一单词编制索引,直到组合条目达到 32K 的长度(减去一些开销)。索引值用两个字节存储。

例如,我们来考虑一下 VENUE 表中的 VENUENAME 列。该列中重复出现 ArenaCenterTheatre 之类的单词,且很可能出现在每个数据块中的前 245 个单词中(如果应用 text255 压缩的话)。如果是这样的话,则此列将从压缩中受益。这是因为,这些单词每次出现时,它们只占用 1 字节的存储空间(而不是 5、6 或 7 字节)。