托管式数据压缩的支持的格式和限制 - Amazon Lake Formation
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

托管式数据压缩的支持的格式和限制

为了提高诸如Amazon Athena、Amazon EMR和ETL Amazon Glue Data Catalog 任务之类的 Amazon 分析服务的读取性能 Amazon Glue ,为数据目录中的冰山表提供了托管压缩(一种将小型Amazon S3对象压缩成较大对象的过程)。

数据压缩支持多种用于读取和写入数据的压缩格式,例如从加密表中读取数据。

数据压缩支持:

  • 文件类型:实木复合地板

  • 数据类型:布尔值、整型、长整型、浮点数、双精度、字符串、十进制、日期、时间、时间戳、字符串、UUID、二进制

  • 压缩:zstd、gzip、snappy、未压缩

  • 加密:数据压缩仅支持默认的 Amazon S3 加密 (SSE-S3) 和服务器端 KMS 加密 (SSE-KMS)。

  • 资源装箱压缩

  • 架构演变

  • 具有目标文件大小的表(写入。 target-file-size-bytes 冰山配置中的属性)在 128MB 到 512 MB 的包含范围内

  • 区域

    • Asia Pacific (Tokyo)

    • 亚太地区(首尔)

    • 亚太地区(孟买)

    • 亚太地区(新加坡)

    • 欧洲地区(爱尔兰)

    • 欧洲地区(伦敦)

    • 欧洲地区(法兰克福)

    • 美国东部(弗吉尼亚州北部)

    • 美国东部(俄亥俄州)

    • 美国西部(加利福尼亚北部)

    • 南美洲(圣保罗)

  • 当存储基础数据的 Amazon S3 存储桶位于另一个账户中时,您可以从数据目录所在的账户运行压缩。要实现此目的,压缩角色需要具有访问 Amazon S3 存储桶的权限。

数据压缩目前不支持:

  • 文件类型:Avro、ORC

  • 数据类型:固定

  • 压缩:brotli、lz4

  • 随分区规格的演变压缩文件。

  • 常规排序或 Z-Order 排序

  • 合并或删除文件:压缩进程会跳过拥有与之关联的删除文件的数据文件。

  • 对跨账户表进行压缩:您无法对跨账户表进行压缩。

  • 对跨区域表进行压缩:您无法对跨区域表进行压缩。

  • 针对资源链接启用压缩

  • Amazon S3 存储桶的 VPC 端点

  • DynamoDB 锁定管理器 — 使用数据压缩时,任何其他数据加载作业都不应像 org.apache.iceberg.aws.dy namodb 那样使用 lock-impl。 DynamoDbLockManager。