Apache Hive - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Apache Hive

Hive 是一种开源数据仓库和分析软件程序包,基于 Hadoop 集群运行。Hive 脚本使用称为 Hive QL(查询语言)的类似于 SQL 的语言,对编程模型进行抽象,并支持典型的数据仓库交互。Hive 使您能够避免根据有向无环图(DAG)或 MapReduce 程序以较低级别的计算机语言(例如 Java)编写 Tez 任务的复杂性。

Hive 通过包含序列化格式来扩展 SQL 范例。您也可以通过创建与您的数据匹配的表架构自定义查询处理,而无需接触到数据本身。SQL 仅仅支持原始值类型(如日期、数字和字符串);与此相反,Hive 表中的值是结构化元素,如 JSON 对象、任何用户定义的数据类型或以 Java 编写的任何函数。

有关 Hive 的更多信息,请参阅 http://hive.apache.org/

下表列出了 Amazon EMR 6.x 系列的最新发行版附带的 Hive 的版本,以及 Amazon EMR 随 Hive 一起安装的组件。

有关此发行版中随 Hive 安装的组件版本,请参阅 Release 6.14.0 Component Versions

emr-6.14.0 的 Hive 版本信息
Amazon EMR 发行版标签 Hive 版本 随 Hive 安装的组件

emr-6.14.0

Hive 3.1.3

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn, tez-on-worker, zookeeper-client, zookeeper-server

下表列出了 Amazon EMR 5.x 系列的最新发行版附带的 Hive 的版本,以及 Amazon EMR 随 Hive 一起安装的组件。

有关此发行版中随 Hive 安装的组件版本,请参阅 Release 6.14.0 Component Versions

emr-5.36.1 的 Hive 版本信息
Amazon EMR 发行版标签 Hive 版本 随 Hive 安装的组件

emr-5.36.1

Hive 2.3.9

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-s3-select, hadoop-client, hadoop-mapred, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hive-client, hive-hbase, hcatalog-server, hive-server2, hudi, mariadb-server, tez-on-yarn

您可以使用 Amazon EMR 构件存储库构建针对特定 Amazon EMR 发行版(从 Amazon EMR 发行版 5.18.0 开始)附带的准确版本的库和依赖项的任务代码。有关更多信息,请参阅使用 Amazon EMR 项目存储库检查依赖项