本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
托管式数据压缩的支持的格式和限制
为提高 Amazon 分析服务(例如 Amazon Athena、Amazon EMR)和 Amazon Glue ETL 作业的读取性能,Amazon Glue Data Catalog 为数据目录中的 Iceberg 表提供了托管式压缩功能(一种将小 Amazon S3 对象压缩成较大对象的进程)。
数据压缩支持多种用于读取和写入数据的压缩格式,例如从加密表中读取数据。
数据压缩支持:
文件类型 – Parquet
数据类型 – 布尔值、整型、长整型、浮点数、双精度、字符串、十进制、日期、时间、时间戳、字符串、UUID、二进制
压缩 – zstd、gzip、snappy、未压缩
加密 – 数据压缩仅支持默认的 Amazon S3 加密(SSE-S3)和服务器端 KMS 加密(SSE-KMS)。
资源装箱压缩
架构演变
目标文件大小(Iceberg 配置中的 write.target-file-size-bytes 属性)在 128MB(含)到 512MB(含)之间的表。
区域
Asia Pacific (Tokyo)
亚太地区(首尔)
亚太地区(孟买)
亚太地区(新加坡)
欧洲地区(爱尔兰)
欧洲地区(伦敦)
欧洲地区(法兰克福)
美国东部(弗吉尼亚州北部)
美国东部(俄亥俄州)
美国西部(加利福尼亚北部)
南美洲(圣保罗)
-
当存储基础数据的 Amazon S3 存储桶位于另一个账户中时,您可以从数据目录所在的账户运行压缩。要实现此目的,压缩角色需要具有访问 Amazon S3 存储桶的权限。
数据压缩目前不支持:
文件类型 – Avro、ORC
数据类型 – 固定
压缩 – brotli、lz4
随分区规格发展压缩文件。
常规排序或 Z-Order 排序
合并或删除文件 – 压缩进程会跳过拥有与之关联的删除文件的数据文件。
-
对跨账户表进行压缩 – 您无法对跨账户表进行压缩。
-
对跨区域表进行压缩 – 您无法对跨区域表进行压缩。
针对资源链接启用压缩
Amazon S3 存储桶的 VPC 端点
-
DynamoDB 锁定管理器
– 使用数据压缩时,其他数据加载任务不应将 lock-impl
用作 org.apache.iceberg.aws.dynamodb.DynamoDbLockManager。