亚马逊 EMR 6.6.0-Hive 发行说明 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 EMR 6.6.0-Hive 发行说明

亚马逊 EMR 6.6.0-Hive 的变化

类型 描述
Upgrade

将 Parquet 升级到 1.12.1

Upgrade

将 jetty jars 版本升级到 9.4.43.v20210629

错误 修复了在 Hive 集群上启用 Hive 时LLAP导致在所有任务/核心节点上安装 Hive 的问题。
逆向移植 HIVE-25942:由于 -2021-294 25,将 commons-io 升级到 2.8.0 CVE
逆向移植 HIVE-25726:由于-2020-13936,将速度升级到 2.3 CVE
逆向移植 HIVE-25680:授权 #get_table_meta HiveMetastore Server API 使用任何授权模型。 HiveMetastore
逆向移植 HIVE-25554:将箭头版本升级到 0.15
逆向移植 HIVE-25242:使用矢量化.adaptor = 已选择时,查询执行速度非常慢
逆向移植 HIVE-25085: MetaStore 客户端不再跨会话共享。
逆向移植 HIVE-24827:对于非文本文件,Hive 聚合查询返回的结果不正确。
逆向移植 HIVE-24683:Hadoop getFileId 23Shims 容易出现不存在的路径 NPE
逆向移植 HIVE-24656:地图和数组类型为空的查询CBO失败
逆向移植 HIVE-24556:针对没有孙子的案例 DefaultGraphWalker 进行优化
逆向移植 HIVE-24408:将 Parquet 升级到 1.11.1
逆向移植 HIVE-24391:修复FIX TestOrcFile 分支 3.1 中的故障
逆向移植 HIVE-24362:对于具有大量节点的AST树,树处理效果不佳
逆向移植 HIVE-24316:在 branch-3.1 ORC 中从 1.5.6 升级到 1.5.8
逆向移植 HIVE-24307:带有属性文件和-e 参数的 Beeline 失败了
逆向移植 HIVE-24245:PTF用计数向量化,在分区上区分会产生不正确的结果。
逆向移植 HIVE-24224:修复 Tez 上的 Hive 在压缩文件上跳过页眉/页脚的问题
逆向移植 HIVE-24157:严格模式在CAST时间戳上失败 ↔ 数字
逆向移植 HIVE-24113:NPE在 G 中 enericUDFTo UnixTimeStamp
逆向移植 HIVE-23987:将箭头版本升级到 0.11.0
逆向移植 HIVE-23972:将外部客户端 ID 添加到外部客户端 LLAP
逆向移植 HIVE-23806:避免在扩展架构时清除所有分区中的列统计状态。这提高了 alter table add columns 语句的运行时间。
逆向移植 HIVE-23779: BasicStatsTask 信息未在 beeline 控制台中打印
逆向移植 HIVE-23306:如果系统设置了配置,则RESET命令不起作用。 getProperty
逆向移植 HIVE-23164:由于非守护程序线程,服务器未正确终止
逆向移植 HIVE-22967:在 Tez 上支持 Hive.reloadable.aux.jars.path for Hive
逆向移植 HIVE-22934:错误流的 Hive 服务器交互式日志计数器
逆向移植 HIVE-22901:变量替换可能导致循环引用失效 OOM
逆向移植 HIVE-22769:查询结果不正确,压缩文本文件的拆分生成过程中查询失败
逆向移植 HIVE-22716:Reading to 被 ByteBuffer 破坏了 ParquetFooterInputFromCache
逆向移植 HIVE-22648:将 Parquet 升级到 1.11.0
逆向移植 HIVE-22640:Decimal64ColumnVector: ClassCastException 当分区列类型为十进制时
逆向移植 HIVE-22621:不稳定的测试用例:。 TestLlapSignerImpl testSigning
逆向移植 HIVE-22533:修复可能的LLAP守护程序 Web 用户界面漏洞
逆向移植 HIVE-22532:PTFPPD可能通过 Rank/ 函数错误地突破极限 DenseRank
逆向移植 HIVE-22514: HiveProtoLoggingHook 可能会消耗大量内存
逆向移植 HIVE-22476:当 hive.fetch.task.conversion 设置为无时,Hive datediff 函数提供的结果不一致
逆向移植 HIVE-22429:在 Hive 3 上使用 bucketing_version 1 迁移的聚簇表使用 bucketing_version 2 进行插入
逆向移植 HIVE-22412: StatsUtils 解释时投掷 NPE
逆向移植 HIVE-22360:当加载的文件中的列数多于表架构中的列数时,最后一列 MultiDelimitSerDe 返回错误的结果
逆向移植 HIVE-22332:自 -540 以来,Hive 应确保有效的架构演化设置 ORC
逆向移植 HIVE-22331:不带参数的 unix_timestamp 返回以毫秒而不是秒为单位的时间戳
逆向移植 HIVE-22275:。 OperationManager queryIdOperation无法正确清理多个 queryIds
逆向移植 HIVE-22273:删除临时目录时访问检查失败
逆向移植 HIVE-22270:将 commons-io 升级到 2.6
逆向移植 HIVE-22241:实现使用日期/时间戳的内部表示UDF形式和格里高利-朱利安混合日历来解释日期/时间戳
逆向移植 HIVE-22241:实现使用日期/时间戳的内部表示形式和 G UDF regorian-Julian 混合来解释日期/时间戳
逆向移植 HIVE-22232:NPE当 hive.order.columnalignalign 设置为 false 时
逆向移植 HIVE-22231:通过 knox 进行大尺寸的 Hive 查询失败,管道损坏写入失败
逆向移植 HIVE-22221:Llap 外部客户端-需要减少 # LlapBaseInputFormat getSplits
逆向移植 HIVE-22208:重写包含带掩码列的表上的联接的查询时,带有保留关键字的列名不会被转义
逆向移植 HIVE-22197:Common Merge 加入会抛出类施法异常。
逆向移植 HIVE-22170:from_unixtime 和 unix_timestamp 应使用用户会话时区
逆向移植 HIVE-22169:Tez: SplitGenerator 正在尝试查找 Tez 不存在的计划文件
逆向移植 HIVE-22168:从 llap 缓存热路径中删除非常昂贵的日志记录
逆向移植 HIVE-22161:UDF: 在 org.apache.hadoop.hive.ql.udf 上 FunctionRegistry 同步。 UDFType班级
逆向移植 HIVE-22120:修复特定边界条件下左外地图连接中的错误结果/ ArrayOutOfBound 异常
逆向移植 HIVE-22115:如果属性设置为 false,则阻止创建查询路由附加器
逆向移植 HIVE-22113:禁止在相关设备上LLAP关机 AMReporter RuntimeException
逆向移植 HIVE-22106:移除分区评估的跨查询同步
逆向移植 HIVE-22099:自 20007 年以来,几个与日期相关的日期UDFs无法正确处理儒略日期 HIVE
逆向移植 HIVE-22037:由于以下HS2原因而关闭时应该会记录 OOM
逆向移植 HIVE-21976:方解石中的偏移量应为空而不是零 HiveSortLimit
逆向移植 HIVE-21924:即使页眉/页脚存在也要拆分文本文件
逆向移植 HIVE-21913:G enericUDTFGet Splits 处理用户名的方式应与处理用户名的方式相同 LLAP
逆向移植 HIVE-21905:泛型在课堂上有所改进 FetchOperator
逆向移植 HIVE-21902: HiveServer2 用户界面:需要码头响应标头 X-Frame-Options
逆向移植 HIVE-21888:将 hive.parquet.timestamp.skip.conversion 默认设置为 true
逆向移植 HIVE-21868:矢量化... CAST FORMAT
逆向移植 HIVE-21864: # LlapBaseInputFormat closeAll
逆向移植 HIVE-21863:改进表达式的向量化器类型转换 WHEN
逆向移植 HIVE-21862:ORCppd 生成带有时间戳的错误结果
逆向移植 HIVE-21846:在 TezaM 中创建一个定期获取指标的话题 LlapDaemon
逆向移植 HIVE-21837:当所选列的值完全 MapJoin 为空时会抛出异常
逆向移植 HIVE-21834:避免不必要的调用以简化过滤条件
逆向移植 HIVE-21832:用于获取平均时间的新指标 queue/serving/response
逆向移植 HIVE-21827:多次调用 SemanticAnalyzer不通过方法 getTableObject ByName
逆向移植 HIVE-21822:通过新方法公开 LlapDaemon 指标 API
逆向移植 HIVE-21818:CBO: 复制 TableRelOptHiveTable有元数据仓流量
逆向移植 HIVE-21815:ORC文件中的统计数据被解析两次
逆向移植 HIVE-21805: HiveServer2:使用快速 ShutdownHookManager APIs
逆向移植 HIVE-21799: NullPointerException 在 DynamicPartitionPruningOptimization,当联接键位于聚合列上时
逆向移植 HIVE-21794:将物化视图参数添加到 sqlStdAuth SafeVarNameRegexes
逆向移植 HIVE-21768:JDBC: 去掉未封闭查询的默认联合前缀 UNION
逆向移植 HIVE-21746: ArrayIndexOutOfBoundsException在动态分区哈希连接期间,禁用 CBO
逆向移植 HIVE-21717:重命名移动任务中的目录失败。
逆向移植 HIVE-21685:使用多个 IN 子句的查询简化错误
逆向移植 HIVE-21681:描述格式化显示多个主键的错误信息
逆向移植 HIVE-21651:将 protobuf serde 移至 hive-exec。
逆向移植 HIVE-21619:在 explain extended 中打印不精确的时间戳类型 SQL
逆向移植 HIVE-21592:当 OptimizedSql 表达式包含时不显示 CONCAT
逆向移植 HIVE-21576:介绍... CAST FORMAT以及有限的:2016 日期SQL时间格式列表
逆向移植 HIVE-21573:如果身份验证设置为,二进制传输将忽略主体 delegationToken
逆向移植 HIVE-21550: TestObjectStore 测试不稳定-无法在请求的时间内获得锁
逆向移植 HIVE-21544:在折叠过程中,持续传播会破坏表达式 coalesce/case/when
逆向移植 HIVE-21539: GroupBy + where 同一列上的子句会导致查询重写不正确
逆向移植 HIVE-21538:Beeline:尽管控制台读取器没有传递给连接参数,但密码来源
逆向移植 HIVE-21509:LLAP可能会缓存损坏的列向量并返回错误的查询结果
逆向移植 HIVE-21499:如果创建命令失败,则不应从注册表中删除该函数 AlreadyExistsException
逆向移植 HIVE-21496:自动调整无序缓冲区大小可能会溢出
逆向移植 HIVE-21468:存储处理程序的标识符名称区分大小写 JDBC
逆向移植 HIVE-21467:移除已弃用的 junit.framework.assert 导入
逆向移植 HIVE-21435:在构建时 LlapBaseInputFormat 应从 TASK _ ATTEMPT _ID conf 获取任务编号(如果存在) SubmitWorkRequestProto
逆向移植 HIVE-21389:Hive 分发在 -21247 之后错过 javax.ws.rs-api.jar HIVE
逆向移植 HIVE-21385:允许禁用向下推不可拆分的计算到源 JDBC
逆向移植 HIVE-21383:JDBC存储处理程序:如果已指定,则使用目录和架构检索表
逆向移植 HIVE-21382:按键减少分组优化——query23 中不会减少密钥
逆向移植 HIVE-21362:添加要从 protobuf 文件中读取的输入格式和 serde。
逆向移植 HIVE-21340:CBO: 修剪输入到 a 中的非键列 SemiJoin
逆向移植 HIVE-21332:清除未锁定的缓冲区而不是锁定的缓冲区
逆向移植 HIVE-21329:自定义 Tez 运行时无序输出缓冲区大小取决于操作员管道
逆向移植 HIVE-21295: StorageHandler 应使用 Hive 惯例将日期转换为字符串
逆向移植 HIVE-21294:矢量化:1-reducer Shuffle 可以跳过对象哈希函数
逆向移植 HIVE-21255:移入 QueryConditionBuilder JdbcStorageHandler
逆向移植 HIVE-21253:Support in DB2 JDBC StorageHandler
逆向移植 HIVE-21232:LLAP: 添加缓存失误友好拆分亲和力提供者
逆向移植 HIVE-21214: MoveTask : 使用文件重复数据 attemptId 删除代替文件大小 compareTempOr DuplicateFiles
逆向移植 HIVE-21184:添加带有成本信息的解释和解释格式化CBO计划
逆向移植 HIVE-21182:在计划期间跳过设置 Hive 暂存目录的步骤
逆向移植 HIVE-21171:如果已开启,则跳过为 tez 创建暂存目录的操作 RPC
逆向移植 HIVE-21166:允许在 # 中进行会话级别查询 LlapBaseInputFormat getSplit
逆向移植 HIVE-21177:动态分区哈希联接期间出现 “找不到字段” 错误
逆向移植 HIVE-21061:CTAS查询失败,源为空 IllegalStateException
逆向移植 HIVE-21041:NPE, ParseException 在从逻辑计划中获取架构时
逆向移植 HIVE-21013: JdbcStorageHandler 无法在 Oracle 中找到分区列
逆向移植 HIVE-21006:扩展 SharedWorkOptimizer 以在有重复利用机会时移除半联接
逆向移植 HIVE-20992:将配置 hive.metastore.dbaccess.ssl.properties 拆分为更有意义的配置
逆向移植 HIVE-20989: JDBC- GetOperationStatus + 日志可以通过睡眠阻止查询进度
逆向移植 HIVE-20988:主键位于多列上的分组查询结果错误
逆向移植 HIVE-20985:如果选择运算符输入是临时列,则矢量化可能会将其中一些作为输出重复使用
逆向移植 HIVE-20978:“hive.jdbc.*” 应该添加到 sqlStdAuth SafeVarNameRegexes
逆向移植 HIVE-20953:如果在创建函数时无法将其添加到元存储中,则将其从函数注册表中删除。
逆向移植 HIVE-20952:清理.java VectorizationContext
逆向移植 HIVE-20951:LLAP: 始终将 Xms 设置为 50%
逆向移植 HIVE-20949:改善物理规划中的PKFK基数估计
逆向移植 HIVE-20944:在查询编译期间不验证统计信息
逆向移植 HIVE-20940:Bridge 案例,其中方解石的类型分辨率比 Hive 更严格。
逆向移植 HIVE-20937:Postgres jdbc 查询失败并显示 “不得为负数” LIMIT
逆向移植 HIVE-20926:当布隆过滤器条目较高或没有统计数据时,半加入减少提示失败
逆向移植 HIVE-20920:使用SQL约束来改进联接重新排序算法
逆向移植 HIVE-20918:用于启用/禁用将计算从方解石推送到连接的标志 JDBC
逆向移植 HIVE-20915:向 HO 和 MR 提供动态排序分区优化
逆向移植 HIVE-20910:由于动态分区排序优化,在分区表中插入操作失败
逆向移植 HIVE-20899:Keytab for URI S LLAP YARN ervice 仅限于支持 HDFS
逆向移植 HIVE-20898:对于时间相关函数,不能将参数转换为不可为空的类型
逆向移植 HIVE-20881:恒定传播过于简化了预测
逆向移植 HIVE-20880:更新 hive.stats.filter.in.min.ratio 的默认值
逆向移植 HIVE-20873:使用 Murmur 哈希来减少哈希碰撞 VectorHashKeyWrapperTwoLong
逆向移植 HIVE-20868:当有子操作进入时 TezDummyOperator ,SMB加入会间歇性失败 getFinalOp MapRecordProcessor
逆向移植 HIVE-20853:曝光。 ShuffleHandler registerDag在 llap 守护程序中 API
逆向移植 HIVE-20850:如果可能,将有条件的案例从投影推送到尺寸表
逆向移植 HIVE-20842:修复了 HIVE -20660中引入的逻辑,用于估计分组依据的统计数据
逆向移植 HIVE-20839:动态分区哈希联接期间出现 “找不到字段” 错误
逆向移植 HIVE-20835:约束和 MV 重写之间的交互可能会在方解石计划器中创建循环
逆向移植 HIVE-20834:保留缓存查询中引用的 Hive QueryResultCache 条目 SemanticAnalyzer
逆向移植 HIVE-20830:某些情况下 JdbcStorageHandler 范围查询断言失败
逆向移植 HIVE-20829: JdbcStorageHandler 射程分割投掷 NPE
逆向移植 HIVE-20827:空数组的结果不一致
逆向移植 HIVE-20826:增强将左侧的加入 + 分组转换为左半联接的 HiveSemiJoin 规则
逆向移植 HIVE-20821:将 0 重写SUM为 + 组合 SUM COALESCE
逆向移植 HIVE-20815: JdbcRecordReader.next 不能吃异常
逆向移植 HIVE-20813:udf to_epoch_milli 还需要支持不带时区的时间戳。
逆向移植 HIVE-20804:进一步改进了带约束条件的按优化分组
逆向移植 HIVE-20792:插入带区域的时间戳会截断数据
逆向移植 HIVE-20788:创建筛选器时,延长 SJ 缩减可能会错误地回溯列
逆向移植 HIVE-20778:如果计划中的所有联接都是通过关联逻辑创建的,则可能不会触发联接重新排序
逆向移植 HIVE-20772:在中记录每个任务的计数器 CPU LLAP
逆向移植 HIVE-20768:添加翻滚窗口 UDF
逆向移植 HIVE-20767:联接运算符之间的多个项目可能会影响使用约束进行联接重新排序
逆向移植 HIVE-20762:NOTIFICATION_ LOG 清理间隔被硬编码为 60 秒,而且太小了
逆向移植 HIVE-20761:在 notification_sequence 表上选择更新有重试间隔且重试次数太小
逆向移植 HIVE-20751:将箭头版本升级到 0.10.0
逆向移植 HIVE-20746: HiveProtoHookLogger 不在一天结束时关闭文件。
逆向移植 HIVE-20744:使用SQL约束来改进联接重新排序算法
逆向移植 HIVE-20740:移除全局锁定。 ObjectStore setConf 方法。这款 cherrypick 将适用于 Hive 3.2 和 4.x 的 HIVE -20740 向后移植到 3.1.x
逆向移植 HIVE-20734:Beeline:当 beeline-site.xml 处于并且 Hive CLI 重定向到 beeline 时,它应该使用系统用户名/虚拟密码而不是提示输入用户名/虚拟密码
逆向移植 HIVE-20731:应授权中的密钥库文件 JdbcStorageHandler
逆向移植 HIVE-20720:向处理程序添加分区列选项 JDBC
逆向移植 HIVE-20719:在 hive.optimize.sort.sort.dynamic.partion UPDATE 优化和矢量化开启后SELECT语句失败
逆向移植 HIVE-20718:添加带约束的 perf cli 驱动程序
逆向移植 HIVE-20716:将 hive.cbo.stats.stats.correlated.multi.key.joins 的默认值设置为 true
逆向移植 HIVE-20712: HivePointLookupOptimizer 应该提取深层案例
逆向移植 HIVE-20710:如果没有类型,常量折叠可能不会创建空常量
逆向移植 HIVE-20706:external_jdbc_table2.q 间歇性失败
逆向移植 HIVE-20704:扩展 HivePreFilteringRule 以支持其他功能
逆向移植 HIVE-20703:将动态排序分区优化置于基于成本的决策之下
逆向移植 HIVE-20702:考虑选择映射连接期间数据结构感知估计产生的开销
逆向移植 HIVE-20692:启用 NOT x IS (NOT) [TRUE|] 表达式的折叠 FALSE
逆向移植 HIVE-20691:修复 org.apache.hadoop.hive.cli。 TestMiniLlapCliDriver。 testCliDriver[cttl]
逆向移植 HIVE-20682:如果主线程关闭了共享, sessionHive 则异步查询执行可能会失败
逆向移植 HIVE-20676: HiveServer2:未设置 PrivilegeSynchronizer为守护程序状态
逆向移植 HIVE-20660:通过将总行数绑定到源表,可以改进按统计数据分组的估计
逆向移植 HIVE-20652: JdbcStorageHandler 将两个不同数据源的连接推送到 jdbc 驱动程序
逆向移植 HIVE-20651:应对 JdbcStorageHandler 密码进行加密
逆向移植 HIVE-20649:兽人作家的LLAP感知内存管理器
逆向移植 HIVE-20648:LLAP: 按运算符分组的向量应使用每个执行器的内存
逆向移植 HIVE-20646:如果分区筛选条件有 IS,则不会将其推送到元数据仓查询 NOT NULL
逆向移植 HIVE-20644:避免通过 Hive 运行时异常暴露敏感信息
逆向移植 HIVE-20636:改进外连接后的空值数量估计
逆向移植 HIVE-20632:如果在查询的表上创建了物化视图,则使用 get_splits 进行查询UDF将失败
逆向移植 HIVE-20627:并发异步查询间歇性失败并导致内存泄漏 LockException
逆向移植 HIVE-20623:共享工作:扩展地图联接缓存条目的共享 LLAP
逆向移植 HIVE-20619:默认情况下包含 MultiDelimitSerDe 在 2 中 HiveServer
逆向移植 HIVE-20618:在联接选择期间, BucketMapJoin可以为非存储桶表选择此选项
逆向移植 HIVE-20617:修复 IN 表达式中常量的类型,使其类型正确
逆向移植 HIVE-20612:为创建新的联接多键关联标志 CBO
逆向移植 HIVE-20603:更改表位置文件系统后插入分区时出现 “错误的 FS” 错误
逆向移植 HIVE-20601:在 _ 中的事件中 EnvironmentContext ALTER为空 PARTITION DbNotificationListener
逆向移植 HIVE-20583:仅在 kerberos 身份验证中使用规范主机名 HiveConnection
逆向移植 HIVE-20582:将 hive 原型日志中的 hflush 设置为可配置
逆向移植 HIVE-20563:矢量化:当THEN/ELSE类型和结果类型不同时,CASEWHEN表达式失败
逆向移植 HIVE-20558:将 hive.hashtable.key.count.adjustment 的默认值更改为 0.99
逆向移植 HIVE-20552:更快地从中获取架构 LogicalPlan
逆向移植 HIVE-20550:切换 W 使用直线ebHCat 提交 Hive 查询
逆向移植 HIVE-20537:多列联接估计值,其中不相关列与 Hive 中存在差异 CBO
逆向移植 HIVE-20524:从 Hive 版本 2 到版本 3 再到 Schema Evolution 检查中断 ALTER TABLE VARCHAR DECIMAL
逆向移植 HIVE-20522:由于字段可为空, HiveFilterSetOpTransposeRule 可能会引发断言错误
逆向移植 HIVE-20521: HS2 doAs =true 在 hadoop.tmp.dir、MR 和 S3A 文件系统中存在权限问题
逆向移植 HIVE-20515:使用结果缓存和查询临时目录时查询结果为空,结果缓存目录位于不同的文件系统中
逆向移植 HIVE-20508:Hive 不支持 “user @realm” 类型的用户名
逆向移植 HIVE-20507:Beeline:添加一个实用程序命令来从 beeline-site.xml 检索所有 uri
逆向移植 HIVE-20505:将 org.openjdk.jmh: jmh-core 升级到 1.21
逆向移植 HIVE-20503:在 mapJoin 选择期间使用可感知数据结构的估计
逆向移植 HIVE-20498:支持列统计数据自动收集的日期类型
逆向移植 HIVE-20496:矢量化:矢量化 PTF IllegalStateException
逆向移植 HIVE-20494:-19440 之后G enericUDFRestrict InformationSchema 被打破了 HIVE
逆向移植 HIVE-20477:如果表达式 OptimizedSql 包含,则不显示 INs
逆向移植 HIVE-20467:允许如果 NOT EXISTS/IF EXISTS in Resource plan creation/drop
逆向移植 HIVE-20462:CREATEVIEW如果视图已经存在,则 “I NOT EXISTS F” 失败
逆向移植 HIVE-20455:来自 security.authorization 的日志。 PrivilegeSynchonizer.run
逆向移植 HIVE-20439:在选择加入时使用膨胀的内存限制进行 llap
逆向移植 HIVE-20433:隐式字符串到时间戳的转换速度很慢
逆向移植 HIVE-20432:将整数类型重写为 I BETWEEN N 以进行统计估计
逆向移植 HIVE-20423:设置NULLSLAST为默认的空顺序
逆向移植 HIVE-20418:对于未选择任何列的查询,LLAPIO 可能无法正确处理禁用行索引的ORC文件
逆向移植 HIVE-20412:在 NPE HiveMetaHook
逆向移植 HIVE-20406:嵌套合并给出的结果不正确
逆向移植 HIVE-20399:使用未完全限CTAS定的自定义表位置对于 MM 表失败
逆向移植 HIVE-20393:半连接减少:用于行为不一致 markSemiJoin DPP
逆向移植 HIVE-20391:分解聚合函数时 HiveAggregateReduceFunctionsRule可能会推断出错误的返回类型
逆向移植 HIVE-20383:队列名称无效和 Hive proto 事件挂钩存在同步问题。
逆向移植 HIVE-20367:Vectorization:支持直播、、、PTF AVG MAX MIN SUM
逆向移植 HIVE-20366:TPC-DS query78 统计数据估计值已关闭,因为过滤器为空
逆向移植 HIVE-20364:更新 hive.map.aggr.hash.min.reduction 的默认值
逆向移植 HIVE-20352:矢量化:Support 分组功能
逆向移植 HIVE-20347:hive.optimize.sort.dynamic.partition 应该适用于分区和 MV CTAS
逆向移植 HIVE-20345:如果从其他调用中删除表,则删除数据库可能会挂起
逆向移植 HIVE-20343:Hive 3:CTAS不尊重 transactional_properties
逆向移植 HIVE-20340:CASTs从时间戳到将时间戳函数的输出用作字符串STRING时,德鲁伊需要显式显示
逆向移植 HIVE-20339:矢量化:解除不必要的限制,导致某些不必要的限制无法矢量化 PTF RANK
逆向移植 HIVE-20337: CachedStore: getPartitionsBy Expr 未正确填充分区列表
逆向移植 HIVE-20336:物化视图的屏蔽和筛选策略
逆向移植 HIVE-20326:使用RELY默认值而不是 “否” 创建约束 RELY
逆向移植 HIVE-20321:矢量化:将 1 列的内存大小缩小到 <1 VectorHashKeyWrapper CacheLine
逆向移植 HIVE-20320:打开 hive.optimize.remove.sq_count_check 标志
逆向移植 HIVE-20315:矢量化:修复更多 NULL /错误结果问题并避免不必要的施法/转换
逆向移植 HIVE-20314:在实例化视图重写中包括分区修剪
逆向移植 HIVE-20312:允许 arrow 客户端使用自己的箭头客户端 BufferAllocator LlapOutputFormatService
逆向移植 HIVE-20302:LLAP: IO 中的非向量化执行会忽略虚拟列,包括 __ID ROW
逆向移植 HIVE-20300: VectorFileSinkArrowOperator
逆向移植 HIVE-202999:签名者单元测试中的LLAP潜在竞赛
逆向移植 HIVE-20296:改进后 HivePointLookupOptimizerRule 能够从更复杂的上下文中提取内容
逆向移植 HIVE-20294:矢量化:修复 NULL /中的错误结果问题// COALESCE ELT
逆向移植 HIVE-20292:定义了主约束的 tpcds query93 中连接顺序不正确
逆向移植 HIVE-2020:延迟初始化 ArrowColumnarBatchSerDe ,因此它不会在此期间分配缓冲区 GetSplits
逆向移植 HIVE-20281: SharedWorkOptimizer 失败并显示 “操作员缓存内容和实际计划不同”
逆向移植 HIVE-20277:矢量化:不支持返回的大小写表达式 BOOLEAN FILTER
逆向移植 HIVE-20267:扩展 WebUI 以包含表单以动态配置日志级别
逆向移植 HIVE-20263:变量中有错字 HiveReduceExpressionsWithStatsRule
逆向移植 HIVE-20260:当另一列NDV的筛选器更改行数时,不应缩放一列的行数
逆向移植 HIVE-20252:减少半联接:如果小桌边上游有地图连接,则可能无法检测到由于半连接分支而导致的周期。
逆向移植 HIVE-20245:矢量化:修复 NULL /IN 中的/错误结果问题 BETWEEN
逆向移植 HIVE-20241:在语句中支持 Su pport 分区规范 CTAS
逆向移植 HIVE-20240:半联接减少:使用局部变量检查外部表条件
逆向移植 HIVE-20226:当请求 maxEvents 超过表的最大行数时HMS getNextNotification 将引发异常
逆向移植 HIVE-20225:支持 Terad SerDe ata 二进制格式
逆向移植 HIVE-20213:将方解石升级到 1.17.0
逆向移植 HIVE-20212:Hiveserver2 在 http 模式下发出默认指标。General.open_Connections 错误地发出指标
逆向移植 HIVE-20210:Simple Fetch 优化器应该在对非分区列进行筛选并且转换量最小 MapReduce 时导致
逆向移植 HIVE-20209:首次尝试 repl 转储时 Metastore 连接失败
逆向移植 HIVE-20207:矢量化:修复过滤器/比较中 NULL /错误的结果问题
逆向移植 HIVE-20204:输入期间的类型转换
逆向移植 HIVE-20203:Arrow 泄露 SerDe 了 DirectByteBuffer
逆向移植 HIVE-20197:矢量化:添加 DECIMAL _64 测试,添加Date/Interval/Timestamp算术,然后通过聚合添加更多测试 GROUP
逆向移植 HIVE-20193:解释计划中 cboInfo 不存在 json
逆向移植 HIVE-20192:嵌入HS2式元数据仓正在泄漏对象 JDOPersistenceManager
逆向移植 HIVE-20183:如果源表包含空桶,则从存储桶表中插入数据可能会导致数据丢失
逆向移植 HIVE-20177:矢量化:减少 KeyWrapper直播模式下的分配 GroupBy
逆向移植 HIVE-20174:矢量化:修复 BY 聚合函数中的 NULL /错误结果问题 GROUP
逆向移植 HIVE-20172:尝试连接到 StatsUpdater 远程元GSS数据仓时因异常而失败
逆向移植 HIVE-20153:在 Hive 2+ 中,计数和求和UDF消耗更多内存
逆向移植 HIVE-20152:当 repl 转储失败时重置数据库状态,因此可以重命名表
逆向移植 HIVE-20149: TestHiveCli 失败/超时
逆向移植 HIVE-20130:更好地记录信息架构同步器
逆向移植 HIVE-20129:兽人表恢复到基于位置的架构演变
逆向移植 HIVE-20118:。 SessionStateUserAuthenticator getGroupNames
逆向移植 HIVE-20116: TezTask 正在使用父记录器
逆向移植 HIVE-20115:Acid 表不应使用页脚扫描进行分析
逆向移植 HIVE-20103:WM:仅当至少使用了一个聚合计数器时才使用聚合DAG计数器
逆向移植 HIVE-20101:BloomKFilter:避免完全使用本地 byte [] 数组
逆向移植 HIVE-21000: OpTraits : 选择 Optraits 应在检测到不匹配时停止
逆向移植 HIVE-20098:统计信息:获取日期列分区统计信息NPE时
逆向移植 HIVE-20095:修复了将计算推送到 jdbc 外部表的功能
逆向移植 HIVE-20093: LlapOutputFomatService: ArrowBuf 与 Netty 一起使用进行会计
逆向移植 HIVE-20090:延长半联接简化过滤器的创建时间,以便能够发现新的机会
逆向移植 HIVE-20088:Beeline 配置位置路径组合不正确
逆向移植 HIVE-20082: HiveDecimal 转换为字符串的转换无法正确格式化十进制
逆向移植 HIVE-20069:修复半连接优化和半连接优化时的重新优化 DPP
逆向移植 HIVE-20051:跳过对临时表的授权
逆向移植 HIVE-20044:Arrow Serde 应该填充字符值并正确处理空字符串
逆向移植 HIVE-20028:元存储客户端缓存配置使用不正确
逆向移植 HIVE-20025:清理由创建的事件文件 HiveProtoLoggingHook
逆向移植 HIVE-20020:Hive contrib jar 不应该在库中
逆向移植 HIVE-20013:在 to_date 函数的日期类型中添加隐式强制转换
逆向移植 HIVE-20011:在 proto 日志挂钩中退出追加模式
逆向移植 HIVE-20005:acid_table_stats、acid_no_buckets 等——分支上的查询结果发生了变化
逆向移植 HIVE-20004: ConvertDecimal64 使用错误的比例会ToDecimal 导致结果不正确
逆向移植 HIVE-19995:ac id table 的汇总行流量
逆向移植 HIVE-19993:不可能使用同时显示为列名的表别名
逆向移植 HIVE-19992:矢量化:-19951 的后续内容 HIVE--> 添加调用。 SchemaEvolution isOnlyImplicitORC仅当数据类型转换不是隐式时,才会进行转换以禁用编码的 LLAP I/O
逆向移植 HIVE-19989:Metastore 使用错误的应用程序名称作为指标 HADOOP2
逆向移植 HIVE-19981: HiveStrictManagedMigration 应用工具转换为外部表的托管表应设置为在删除表时删除数据
逆向移植 HIVE-19967:SMB加入:Need Optraits for ala Op PTFOperator GBY
逆向移植 HIVE-19935:Hive WM 会话已终止:更新任务计数失败 LLAP
逆向移植 HIVE-19924:标记 Repl Load 运行的 distcp 作业
逆向移植 HIVE-19891:使用自定义分区目录插入外部表可能会导致数据丢失
逆向移植 HIVE-19850:Tez 中的动态分区修剪会导致 “找不到用于表格扫描的工作” 错误
逆向移植 HIVE-19806:对 qtests 输出进行排序以避免测试结果出现不稳定性
逆向移植 HIVE-19770:CBO支持选择中包含多个相同列的查询
逆向移植 HIVE-19769:为数据库和表名创建专用对象
逆向移植 HIVE-19765:将 Parquet 特定测试添加到 BlobstoreCliDriver
逆向移植 HIVE-19759:片状测试:# TestRpc testServerPort
逆向移植 HIVE-19711:重构 Hive 架构工具
逆向移植 HIVE-19701: getDelegationTokenFromMetaStore不需要同步
逆向移植 HIVE-19694:创建物化视图语句应在运行 MV 的语句之前检查 MV 名称是否存在冲突。SQL
逆向移植 HIVE-19674:按十进制常量分组向下推到 Druid 表
逆向移植 HIVE-19668:重复的 org.antlr.runtime 浪费了超过 30% 的堆量。 CommonToken's 和重复的字符串
逆向移植 HIVE-19663:重构 LLAP IO 报告生成
逆向移植 HIVE-19661:将 Hive 切换UDFs为使用 Re2J 正则表达式引擎
逆向移植 HIVE-19628:可能在 NPE LLAP testSigning
逆向移植 HIVE-19568:主动/被动 HS2 HA:不允许直接连接到被动实例 HS2
逆向移植 HIVE-19564:矢量化:修复算术中的 NULL /错误结果问题
逆向移植 HIVE-1952:启用 #druidkafkamini_basic .q TestMiniDruidKafkaCliDriver
逆向移植 HIVE-19432: GetTablesOperation 如果蜂巢的数据库和表太多,则速度太慢
逆向移植 HIVE-19360:CBO: 向对象添加 “优化SQL” QueryPlan
逆向移植 HIVE-19326:stats auto gather:查询期间的聚合不正确 UNION
逆向移植 HIVE-19313: TestJdbcWithDBTokenStoreNoDoAs测试失败了
逆向移植 HIVE-19285:将日志添加到的子类中 MetaDataOperation
逆向移植 HIVE-19235:更新 Minimr 测试的黄金文件
逆向移植 HIVE-19104:当通过重试开始测试时,实例应该 MetaStore 是独立的
逆向移植 HIVE-18986:表重命名将运行 java.lang。 StackOverflowError dataNucleus 如果表包含大量列,则输入
逆向移植 HIVE-18920:CBO: 在第一次查询之前初始化 Janino 提供者
逆向移植 HIVE-18873:静默地跳过 MR 的谓词下推 HiveInputFormat 可能会导致存储处理程序产生错误的结果
逆向移植 HIVE-18871:由于将 hive.aux.jars.path 设置为 hdfs 而导致的 hive on tez 执行错误://
逆向移植 HIVE-18725:改进列引用错误时子查询的错误处理
逆向移植 HIVE-18696:如果出现以下情况,则可能无法在 HiveMetaStore .add_partitions_core 方法中正确清理分区文件夹
逆向移植 HIVE-18453:ACID: 添加 “CREATETRANSACTIONALTABLE” 语法以统一ACIDORC并支持 Parquet
逆向移植 HIVE-18201:禁用 XPROD _ for sq_count_ EDGE chec
逆向移植 HIVE-18140:在基本统计数据混合大小写下,分区表统计数据可能会出错
逆向移植 HIVE-17921:带结构的聚合会产生错误的结果 LLAP
逆向移植 HIVE-17896:TopNKey:创建一个独立的可向量化 T 运算符 opNKey
逆向移植 HIVE-17840:如果出现异常 HiveMetaStore 。transactionalListeners notifyEvent 失败
逆向移植 HIVE-17043:如果以后未引用,则从按键分组中移除非唯一列
逆向移植 HIVE-17040:在 FK 关系存在的情况下加入淘汰赛
逆向移植 HIVE-16839:同时更改同一个分区commitTransaction 时对 openTransaction /的调用不平衡
逆向移植 HIVE-16100:动态排序分区优化器丢失同级运算符
逆向移植 HIVE-15956: StackOverflowError 当丢弃大量分区时
逆向移植 HIVE-15177:当 kerberos 身份验证类型设置为且主体包含 _ 时 Hive 身份验证失败 fromSubject HOST
逆向移植 HIVE-14898:HS2不应为空身份验证标头错误记录调用堆栈
逆向移植 HIVE-14493:对物化视图的分区支持
逆向移植 HIVE-14431:识别为 COALESCE CASE
逆向移植 HIVE-13457:为监控信息创建HS2RESTAPI端点
逆向移植 HIVE-12342:将 hive.optimize.index.filter 的默认值设置为 true
逆向移植 HIVE-10296:当 Hive 在元存储上运行多联接查询时观察到强制转换异常
逆向移植 HIVE-6980:使用直接 sql 删除表

亚马逊 EMR 6.6.0-Hive 配置更改

  • 作为OSS变更 HIVE-20703 的一部分,用于对动态分区进行排序的属性已hive.optimize.sort.dynamic.partition替换为。hive.optimize.sort.dynamic.partition.threshold

    hive.optimize.sort.dynamic.partition.threshold 配置具有以下潜在值:

    描述

    0

    (默认值)

    在使用ORC文件时,将动态分区排序的优化作为基于成本的决定。INSERT查询中允许的最大写入器数量的计算方法是(执行者/容器内存)*(兽人占用的内存百分比)除以单个写入器占用的最大内存(条带大小)。

    -1

    禁用优化以对动态分区进行完全排序。

    1

    对动态分区启用全局排序。这样可以使 Reducer 中的每个分区值只打开一个记录写入器,从而减小 Reducer 的内存压力。

    2

    (或更大的整数)

    告知 Hive 使用指定的整数作为最大写入器数的阈值。

亚马逊 EMR 6.6.0-Hive 已知问题

  • 与 join 位于同一列上的窗口函数的查询可能会导致无效的转换(如 HIVE-25278 中所述),并导致错误的结果或查询失败。解决方法是,您可以在查询CBO级别禁用此类查询。如需更多信息,请联系 Amazon 支持人员。

  • 亚马逊 EMR 6.6.0 包含 Hive 软件版本 3.1.2。Hive 3.1.2 引入了一项功能,如果文本文件包含页眉和页脚,则可将其拆分 (HIVE-21924)。Apache Tez App Master 读取您的每个文件以确定数据范围内的偏移点。如果您的查询读取大量小型文本文件,这些行为综合起来可能会影响性能。解决方法是使用 CombineHiveInputFormat 并通过配置以下属性调整最大拆分大小:

    SET hive.tez.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat; SET mapreduce.input.fileinputformat.split.maxsize=16777216;
  • 在 Amazon EMR 6.0 到 6.9.x 中,具有动态分区和 BY 或 BY 子句ORDER的INSERT查询将始终有SORT两个缩减器。此问题是由OSS更改 HIVE-20703 引起的,该更改将动态排序分区优化置于基于成本的决策之下。如果您的工作负载不需要对动态分区进行排序,建议将 hive.optimize.sort.dynamic.partition.threshold 属性设置为 -1 以禁用新功能并获得计算正确的 Reducer 数量。此问题已在 OSS Hive 中作为 HIVE-22269 的一部分修复,并已在亚马逊 6.10.0 中修复。EMR