Apache Hive - Amazon EMR
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Apache Hive

Hive 是一种开源数据仓库和分析套装软件,在 Hadoop 群集的顶部运行。Hive 脚本使用称为 Hive QL(查询语言)的类 SQL 语言,该语言可抽象编程模型并支持典型的数据仓库交互。Hive 使您可以避免基于有向无环图 (DAG) 或以较低级别的计算机语言 (如 Java) 编写 Tez 任务的复杂性。

Hive 通过包含序列化格式来扩展 SQL 范例。您也可以通过创建与您的数据匹配的表架构自定义查询处理,而无需接触到数据本身。SQL 仅仅支持原始值类型 (如日期、数字和字符串);但 Hive 表值是结构化元素,如 JSON 对象、任何用户定义的数据类型或以 Java 编写的任何函数。

有关 Hive 的更多信息,请参阅 http://hive.apache.org/

下表列出了 Amazon EMR 6.x 系列的最新发布版本附带的 Hive 版本,以及 Amazon EMR 随 Hive 一起安装的组件。

有关随此发布版本中的 Hive 一起安装的组件的版本,请参阅发行版 6.2.0 组件版本

emr-6.2.0 的配置版本信息
Amazon EMR 版本标签 Hive 版本 随安装的组件

emr-6.2.0

Hive 3.1.2

EMRF, emr-DDB, EMR-动力学, EMR-s3-dist-cp, emr-s3 选择, hadoop-客户端, Hadoop 映射, Hadoop-高清-数据执行, Hadoop-HDF-库, Hadoop-Hadoop-Hado-Hado-p-Op-kms-服务器/hadoop-纱线-节点管理器, hadoop-纱线-时间线-服务器, 蜂巢-客户端, 蜂巢-蜂巢-hbase, 哈目录服务器, 蜂巢服务器 2, hudi, 玛丽亚德-服务器, 纱线测试, 动物主管-客户端, 动物主管-服务器

下表列出了 Amazon EMR 5.x 系列的最新发布版本附带的 Hive 版本,以及 Amazon EMR 随 Hive 一起安装的组件。

有关随此发布版本中的 Hive 一起安装的组件的版本,请参阅发行版 5.33.0 组件版本

emr-5.33.0 的 Hive 版本信息
Amazon EMR 版本标签 Hive 版本 随安装的组件

emr-5.33.0

Hive 2.3.7

emrfs、emr-ddb、emr-goodies、emr-kinesis、emr-s3-dist-cp、emr-s3-select、hadoop-client、hadoop-mapred、hadoop-hdfs-datanode、hadoop-hdfs-library、hadoop-hdfs-namenode、hadoop-httpfs-server、hadoop-kms-server、hadoop-yarn-nodemanager、hadoop-yarn-resourcemanager、hadoop-yarn-timeline-server、hive-client、hive-hbase、hcatalog-server、hive-server2、hudi、mariadb-server、tez-on-yarn

从 Amazon EMR 5.18.0 开始,您可以使用 Amazon EMR 项目存储库构建针对特定 Amazon EMR 发布版本附带的准确版本的库和依赖项的任务代码。有关更多信息,请参阅 使用 Amazon EMR 项 Artifact 存储库检查依赖项