Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

Apache Hive

Hive 是一种开源数据仓库和分析套装软件,在 Hadoop 集群的顶部运行。Hive 脚本使用与 SQL 类似的、名为 Hive QL (查询语言) 的语言,该语言会提取编程模型并且支持典型的数据仓库交互。利用 Hive,您将能够避免基于有向无环图 (DAG) 或使用较低级的计算机语言 (如 Java) 的 MapReduce 程序编写 Tez 作业的复杂性。

Hive 通过包括序列化格式来扩展 SQL 范式。您也可以通过创建与您的数据匹配的表架构自定义查询处理,而无需接触到数据本身。SQL 仅仅支持原始值类型 (如日期、数字和字符串);与此相反,Hive 表中的值是结构化元素,如 JSON 对象、任何用户定义的数据类型或以 Java 编写的任何函数。

有关 Hive 的更多信息,请参阅 http://hive.apache.org/

下表列出了最新版的 Amazon EMR 附带的 Hive 的版本,以及 Amazon EMR 随 Hive 一起安装的组件。

有关随此版本中的 Hive 一起安装的组件的版本,请参阅发行版 5.20.0 组件版本

emr-5.20.0 的 Hive 版本信息

Amazon EMR 发行版标签 Hive 版本 随 Hive 安装的组件

emr-5.20.0

Hive 2.3.4

emrfs、emr-ddb、emr-goodies、emr-kinesis、emr-s3-dist-cp、emr-s3-select、hadoop-client、hadoop-mapred、hadoop-hdfs-datanode、hadoop-hdfs-library、hadoop-hdfs-namenode、hadoop-httpfs-server、hadoop-kms-server、hadoop-yarn-nodemanager、hadoop-yarn-resourcemanager、hadoop-yarn-timeline-server、hive-client、hive-hbase、hcatalog-server、hive-server2、mysql-server、tez-on-yarn

Beginning with Amazon EMR 5.18.0, you can use the Amazon EMR artifact repository to build your job code against the exact versions of libraries and dependencies that are available with specific Amazon EMR release versions. For more information, see 使用 Amazon EMR 项目存储库检查依赖项.