列式存储格式 - Amazon Athena
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

列式存储格式

Apache ParquetORC是针对快速检索数据进行了优化的列式存储格式,用于Amazon分析应用.

列式存储格式具有以下特征,使其适合 Athena:

  • 按列压缩,针对列数据类型选择压缩算法可以节省 Amazon S3 中的存储空间,并减少查询处理期间的磁盘空间和 I/O。

  • 谓词下推Parquet 和 ORC 中的 Athena 查询可以只提取所需的数据块,从而提高查询性能。当 Athena 查询从您的数据获取特定列值时,它使用来自数据块谓词的统计信息(例如最大/最小值)来确定读取还是跳过改数据块。

  • 拆分数据Parquet 和 ORC 中的数据读取可以拆分为多个读进程,在查询处理期间增加并行度。

要将现有原始数据从其他存储格式转换为镶木地板或 ORC,您可以运行创建表作为选择 (CAS)查询 Athena 将数据存储格式指定为镶木地板或 ORC,或使用Amazon Glue爬网程序。