Amazon EMR 6.11.0 – Hive 发布说明 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon EMR 6.11.0 – Hive 发布说明

Amazon EMR 6.11.0 – Hive 更改

类型 描述
改进 增加了对多线程删除分区的支持,以提高删除分区的性能
改进 支持读取编码的 Hive 查询文件
改进 默认情况下为 Hive on Tez 作业启用 Tez Shuffle Handler
错误 添加了一个选项,以允许在启用 hive.groupby.skewindata 时对 Reducer 启用确定性密钥分配,以修复错误结果(在 HIVE-20220 中报告)
错误 修复了配置默认分区名称时统计数据计算失败的问题
错误 尊重在启用传输中加密的集群中开箱即用 SSL 配置为 HiveServer 2 时传递的任何自定义 SSL 分类参数
逆向移植 HIVE-23617:修复了存储 API FindBug 问题
逆向移植 HIVE-26408:矢量化:修复暂存列的取消分配,不要将子列重复用作输出 ConstantVectorExpression
逆向移植 HIVE-23614:始终传递 HiveConfig 给 removeTempOr DuplicateFiles
逆向移植 HIVE-23354:从中删除文件大小完整性检查 compareTempOr DuplicateFiles
逆向移植 HIVE-20344:已修复 PrivilegeSynchronizer SBA 投掷 AccessControlException的问题。还引入了 hive.privilege.synchronizer 属性来禁用权限同步器
逆向移植 HIVE-15826:支持为所有人配置 “序列化.encoding” SerDes
逆向移植 HIVE-18284:修复使用 dynpart 排序优化插入带有“distribute by”子句的数据时出现的 NPE
逆向移植 HIVE-24930:在向量化代码路径中不使用来自子操作的 operator.setDone() 短路(如果 childSize == 1)
逆向移植 HIVE-24523:的矢量化读取路径 LazySimpleSerde 不支持时间戳的 SERDEPROPERTIES
逆向移植 HIVE-23265:在设置了限制和偏移的情况下返回重复的 rowset
逆向移植 HIVE-21492: VectorizedParquetRecordReader 无法读取使用节俭/自定义工具生成的 parquet 文件
逆向移植 HIVE-22540:矢量化:Decimal64 列不适用。 VectorizedBatchUtil makeLikeColumn向量 ()
逆向移植 HIVE-22588:切换向量 groupby 模式时,刷新其余分组集的剩余行
逆向移植 HIVE-22551: BytesColumnVector initBuffer 应始终如一地清理向量和长度
逆向移植 HIVE-22448:CBO:使用分组按键扩展不同的多个计数
逆向移植 HIVE-22248:修复持续存在的统计问题
逆向移植 HIVE-22210:向量化可以重复使用筛选中涉及的计算输出列
逆向移植 HIVE-21531:向量化:所有空哈希码都不是使用 Murmur3 计算的
逆向移植 HIVE-20419:矢量化:防止在哈希映射键中使用 VectorPartitionDesc 后发生变异
逆向移植 HIVE-19388: ClassCastException 在 VectorMapJoinCommonOperator 初始化期间
逆向移植 HIVE-21584:Java 11 准备工作:系统类加载器不是 URL ClassLoader
逆向移植 HIVE-25107:类路径日志记录应处于 DEBUG 级别(#2271)
逆向移植 HIVE-22097:不兼容 java.util。 ArrayList适用于 java 11
逆向移植 HIVE-23938:LLAP:JDK11 – 某些 GC 日志文件轮换相关的 jvm 参数无法再使用
逆向移植 HIVE-26226:在 upgrade-acid 中将 jdk.tools dep 从 hive-metastore 中排除
逆向移植 HIVE-17879:升级 Datanucleus Maven 插件
逆向移植 HIVE-27004: DateTimeFormatterBuilder# appendZoneText 无法在高于 8 的 Java 版本中解析 'UTC+'
逆向移植 HIVE-16812: VectorizedOrcAcidRowBatchReader不筛选删除事件
逆向移植 HIVE-17917: VectorizedOrcAcidRowBatchReader。 computeOffsetAnd存储桶优化
逆向移植 HIVE-19985:ACID:跳过解码只读查询的 ROW__ID 部分
逆向移植 HIVE-20635: VectorizedOrcAcidRowBatchReader不筛选原始文件的删除事件
Upgrade 将 Javadoc 升级到 3.3.1
Upgrade 将 Javassist 升级到 3.24.1-GA
Upgrade 更新 apache-directory-server 到 2.0.0-M14

新配置

名称 分类 描述
hive.metastore.fs.drop.partition.threads hive-site 删除分区线程池中的核心线程数。
hive.metastore.fs.drop.partition.keepalive.time hive-site 空闲的丢弃分区异步线程(来自线程池)在终止之前等待新任务到达的时间(以秒为单位)。
hive.metastore.fs.drop.partition.threadpool.max.queue.size hive-site 线程池中用于从文件系统中删除分区的最大队列大小。
hive.groupby.enable.deterministic.distribution hive-site 启用向 Reducer 的密钥分配确定性。它将在调用用于随机分区的 rand 函数时传递一个恒定的种子值。
hive.privilege.synchronizer hive-site 是否在 HiveServer 2 中定期同步来自外部授权者的权限。
hive.cli.query.file.encoding hive-site cli 参数中提供的所有类型的查询文件(查询文件、init 查询文件、rc 文件等)的文件编码。
hive.emr.tez.shuffle.enabled hive-site Hive on Tez 作业现在默认使用 tez_shuffle 而不是 mapreduce_shuffle 作为默认 Shuffle 处理程序。

已弃用的配置

由于 HIVE-23354 的原因,以下配置属性已弃用并且在 Amazon EMR 发行版 6.11.0 及更高版本中不再支持。

名称 默认值

hive.mapred.reduce.tasks.speculative.execution

false

tez.am.speculation.enabled

false