托管式数据压缩的支持的格式和限制 - Amazon Glue
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

托管式数据压缩的支持的格式和限制

为提高 Amazon 分析服务(例如 Amazon Athena、Amazon EMR)和 Amazon Glue ETL 作业的读取性能,Amazon Glue Data Catalog 为数据目录中的 Iceberg 表提供了托管式压缩功能(一种将小 Amazon S3 对象压缩成较大对象的进程)。

数据压缩支持多种用于读取和写入数据的压缩格式,例如从加密表中读取数据。

数据压缩支持:

  • 文件类型 – Parquet

  • 数据类型 – 布尔值、整型、长整型、浮点数、双精度、字符串、十进制、日期、时间、时间戳、字符串、UUID、二进制

  • 压缩 – zstd、gzip、snappy、未压缩

  • 加密 – 数据压缩仅支持默认的 Amazon S3 加密(SSE-S3)和服务器端 KMS 加密(SSE-KMS)。

  • 资源装箱压缩

  • 架构演变

  • 目标文件大小(Iceberg 配置中的 write.target-file-size-bytes 属性)在 128MB(含)到 512MB(含)之间的表。

  • 区域

    • Asia Pacific (Tokyo)

    • 亚太地区(首尔)

    • 亚太地区(孟买)

    • 亚太地区(新加坡)

    • 欧洲地区(爱尔兰)

    • 欧洲地区(伦敦)

    • 欧洲地区(法兰克福)

    • 美国东部(弗吉尼亚州北部)

    • 美国东部(俄亥俄州)

    • 美国西部(加利福尼亚北部)

    • 南美洲(圣保罗)

  • 当存储基础数据的 Amazon S3 存储桶位于另一个账户中时,您可以从数据目录所在的账户运行压缩。要实现此目的,压缩角色需要具有访问 Amazon S3 存储桶的权限。

数据压缩目前不支持:

  • 文件类型 – Avro、ORC

  • 数据类型 – 固定

  • 压缩 – brotli、lz4

  • 随分区规格发展压缩文件

  • 常规排序或 Z-Order 排序

  • 合并或删除文件 – 压缩进程会跳过拥有与之关联的删除文件的数据文件。

  • 对跨账户表进行压缩 – 您无法对跨账户表进行压缩。

  • 对跨区域表进行压缩 – 您无法对跨区域表进行压缩。

  • 针对资源链接启用压缩

  • Amazon S3 存储桶的 VPC 端点

  • DynamoDB 锁定管理器 – 使用数据压缩时,其他数据加载任务不应将 lock-impl 用作 org.apache.iceberg.aws.dynamodb.DynamoDbLockManager。