Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门


本主题介绍当前 Amazon EMR 版本中的功能和已解决的问题。版本 5.20.0 选项卡上也提供了这些发行说明,以及应用程序版本、组件版本和此版本的可用配置分类。 订阅 Amazon EMR 发行说明的 RSS 源,以便在有新的 Amazon EMR 发布版本可用时接收更新。

有关回到发行版 4.2.0 的早期版本发布说明,请参阅 Amazon EMR 新增功能历史记录

5.20.0 版本 (最新)

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

以下发布说明包括有关 Amazon EMR 发布版本 5.20.0 的信息。与 5.19.0 相关的更改。

首次发布日期:2018 年 12 月 18 日

上次更新日期:2019 年 1 月 22 日


  • Flink 1.6.2

  • HBase 1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet 1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • AWS SDK for Java 1.11.461


  • (2019 年 1 月 22 日)Amazon EMR 中的 Kerberos 进行了改进,用于支持对来自外部 KDC 的委托人进行身份验证。这集中了委托人管理,因为多个集群可以共享单个外部 KDC。此外,外部 KDC 可与 Active Directory 域建立跨领域信任关系。这使得所有集群可以从 Active Directory 对委托人进行身份验证。有关更多信息,请参阅 Amazon EMR 管理指南 中的 使用 Kerberos 身份验证


  • Amazon EMR 的默认 Amazon Linux AMI

    • Python3 程序包从 Python 3.4 升级到 3.6。

  • 经 EMRFS S3 优化的提交程序

  • Hive

  • Glue 与 Spark 和 Hive

    • In EMR 5.20.0 or later, parallel partition pruning is enabled automatically for Spark and Hive when AWS Glue Data Catalog is used as the metastore. This change significantly reduces query planning time by executing multiple requests in parallel to retrieve partitions. The total number of segments that can be executed concurrently range between 1 and 10. The default value is 5, which is a recommended setting. You can change it by specifying the property aws.glue.partition.num.segments in hive-site configuration classification. If throttling occurs, you can turn off the feature by changing the value to 1. For more information, see AWS Glue Segment Structure.