亚马逊 EMR 6.11.0-Hive 发行说明 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 EMR 6.11.0-Hive 发行说明

亚马逊 EMR 6.11.0-Hive 的变化

类型 描述
改进 增加了对多线程删除分区的支持,以提高删除分区的性能
改进 支持读取编码的 Hive 查询文件
改进 默认情况下为 Hive on Tez 作业启用 Tez Shuffle Handler
错误 添加了一个选项,允许在启用 hive.groupby.skewindata 时向简化器分配密钥以修复错误的结果(在 -20220 中报告)HIVE
错误 修复了配置默认分区名称时统计数据计算失败的问题
错误 尊重在启用传输中加密的集群中开箱即用配置SSL为 HiveServer 2 时传递的任何自定义SSL分类参数
逆向移植 HIVE-23617:修复了存储 api 问题 FindBug
逆向移植 HIVE-26408:矢量化:修复暂存列的取消分配,不要重复使用子列作为输出 ConstantVectorExpression
逆向移植 HIVE-23614:始终传递给 HiveConfig removeTempOr DuplicateFiles
逆向移植 HIVE-23354:从中删除文件大小健全性检查 compareTempOr DuplicateFiles
逆向移植 HIVE-20344:已修复 PrivilegeSynchronizer 投掷问题。SBA AccessControlException还引入了 hive.privilege.synchronizer 属性来禁用权限同步器
逆向移植 HIVE-15826:支持为所有人配置 “serialization.encoding” SerDes
逆向移植 HIVE-18284:修复在 dynpart NPE 排序优化中插入带有 “分配依据” 子句的数据时的问题
逆向移植 HIVE-24930:操作员。 setDone() 在矢量化代码路径中不使用子操作的短路(如果 == 1) childSize
逆向移植 HIVE-24523:的矢量化读取路径 LazySimpleSerde 不支持时间戳 SERDEPROPERTIES
逆向移植 HIVE-23265:在设置了限制和偏移的情况下返回重复的行集
逆向移植 HIVE-21492: VectorizedParquetRecordReader 无法读取使用节俭/自定义工具生成的镶木地板文件
逆向移植 HIVE-22540:矢量化:Decimal64 列不适用。 VectorizedBatchUtil makeLikeColumn向量 ()
逆向移植 HIVE-22588:切换向量 groupby 模式时,刷新其余分组集的剩余行
逆向移植 HIVE-22551: BytesColumnVector initBuffer 应始终如一地清理向量和长度
逆向移植 HIVE-22448:CBO: 使用分组按键扩展不同的多个计数
逆向移植 HIVE-22248:修复持续存在的统计问题
逆向移植 HIVE-22210:矢量化可能会重用过滤中涉及的计算输出列
逆向移植 HIVE-21531:矢量化:所有NULL哈希码都不是使用 Murmur3 计算的
逆向移植 HIVE-20419:矢量化:防止在哈希映射键中使用 VectorPartitionDesc 后发生变异
逆向移植 HIVE-19388: ClassCastException 在初始化期间 VectorMapJoinCommonOperator
逆向移植 HIVE-21584:Java 11 准备工作:系统类加载器不是 URLClassLoader
逆向移植 HIVE-25107:Classpath 日志记录应该处于级别 (#2271) DEBUG
逆向移植 HIVE-22097:java.util 不兼容。 ArrayList适用于 java 11
逆向移植 HIVE-23938:LLAP: JDK11-某些 GC 日志文件轮换相关的 jvm 参数不能再使用了
逆向移植 HIVE-26226:在升级时将 jdk.tools dep 从 hive-metastore 中排除
逆向移植 HIVE-17879:升级 Datanucleus Maven 插件
逆向移植 HIVE-27004: DateTimeFormatterBuilder # 在高于 8 的 Java 版本中appendZoneText 无法解析 UTC '+'
逆向移植 HIVE-16812: VectorizedOrcAcidRowBatchReader不筛选删除事件
逆向移植 HIVE-17917:。 VectorizedOrcAcidRowBatchReader computeOffsetAnd存储桶优化
逆向移植 HIVE-19985:ACID: 跳过解码只读查询的 ROW __ID 部分
逆向移植 HIVE-20635: VectorizedOrcAcidRowBatchReader不筛选原始文件的删除事件
Upgrade 将 Javadoc 升级到 3.3.1
Upgrade 将 Javassist 升级到 3.24.1-GA
Upgrade 更新 apache-directory-server到 2.0.0-M14

新配置

名称 分类 描述
hive.metastore.fs.drop.partition.threads hive-site 删除分区线程池中的核心线程数。
hive.metastore.fs.drop.partition.keepalive.time hive-site 空闲的丢弃分区异步线程(来自线程池)在终止之前等待新任务到达的时间(以秒为单位)。
hive.metastore.fs.drop.partition.threadpool.max.queue.size hive-site 线程池中用于从文件系统中删除分区的最大队列大小。
hive.groupby.enable.deterministic.distribution hive-site 启用向 Reducer 的密钥分配确定性。它将在调用用于随机分区的 rand 函数时传递一个恒定的种子值。
hive.privilege.synchronizer hive-site 是否在 HiveServer 2 中定期同步来自外部授权者的权限。
hive.cli.query.file.encoding hive-site cli 参数中提供的所有类型的查询文件(查询文件、init 查询文件、rc 文件等)的文件编码。
hive.emr.tez.shuffle.enabled hive-site Hive on Tez 作业现在默认使用 tez_shuffle 而不是 mapreduce_shuffle 作为默认 Shuffle 处理程序。

已弃用的配置

由于 HIVE-23354,以下配置属性已被弃用,亚马逊EMR版本 6.11.0 及更高版本不再支持这些属性。

名称 默认值

hive.mapred.reduce.tasks.speculative.execution

false

tez.am.speculation.enabled

false