Amazon EMR 7.6.0 – Hive 发布说明 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon EMR 7.6.0 – Hive 发布说明

Amazon EMR 7.6.0 – Hive 更改

类型 描述

改进

为 ORC 非 ACID 分区表添加了快速 S3 前缀列表功能

功能

为 S3AFileSystem 上的 Hive 写入查询添加对 Magic Committer 的支持

已知问题

  • 对于以 Amazon S3 Express One Zone 为输出位置的 Hive 插入覆盖查询,请将 core-site 配置:fs.s3a.directory.operations.purge.uploads 设置为 false

Amazon EMR 7.6.0 - 新配置

分类 名称 默认值 描述

hive-site

hive.exec.fast.s3.partition.discovery.enabled

true

是否使用快速 S3 分区发现进行拆分计算。这将为支持的文件格式启用基于前缀的列表:ORC。请注意,此功能使用 S3 Express One Zone 存储类别不支持的 S3 API 参数。使用它们时,请禁用此功能。

hive-site

hive.exec.fast.s3.partition.discovery.max.thread.threshold

128

快速 S3 分区发现的最大并行度。

hive-site

hive.exec.fast.s3.partition.discovery.parallelism

10

快速 S3 分区发现单次运行的并行度。此配置只有在 hive.exec.fast.s3.partition.discovery.enabled 设置为 true 时才会生效

hive-site

hive.blobstore.output-committer.magic.track.commits.in.memory.enabled

true

用于切换 Magic 提交程序和 Hive 的标志是否应该跟踪内存中所有待处理提交? Magic 提交程序可以选择将提交数据存储在内存中,这样可以减少 S3 调用次数,从而加快 TaskCommit 操作的速度。此配置会覆盖 Hadoop 配置 fs.s3a.committer.magic.track.commits.in.memory.enabled

hive-site

hive.blobstore.output-committer.dp.skip.task.staging.dir.creation

true

用于切换 Magic 提交程序的标志是否应该在 blobstore 中创建 dp 暂存路径? 此标志仅适用于 Hive 通过 hive.blobstore.output-committer.magic.track.commits.in.memory.enabled 使用 Magic Committer 跟踪内存中的提交的情况。默认情况下,它设置为 true,但仅当启用 hive.blobstore.output-committer.magic.track.commits.in.memory.enabled 时才会生效,并将创建任务尝试路径的额外 S3 调用保存到 blobstore 中。

hive-site

hive.blobstore.output-committer.magic.disable.fs.cache.for.llap

true

使用 Magic Committer 时,应在 LLAP 的写入流中禁用用于切换 blobstore FS 缓存的标志。启用 LLAP 时,此标志就会生效,默认情况下设置为 true。