新增功能 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

新增功能

本主题介绍 Amazon EMR 6.x 系列和 5.x 系列的当前发行版中的功能和已解决的问题。发行版 6.5.0 选项卡发行版 5.34.0 选项卡上也提供了这些发布说明,以及应用程序版本、组件版本和此发行版的可用配置分类。

订阅 RSS 源,通过 https://docs.amazonaws.cn/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss 获取 Amazon EMR 发布说明,以便在新的 Amazon EMR 发行版可用时接收更新。

有关回到发布版本 4.2.0 的早期版本发布说明,请参阅Amazon EMR 新增功能历史记录

注意

早期的 25 个 Amazon EMR 发行版现在使用Amazon签名版本 4 对发送到 Amazon S3 的请求进行身份验证。Amazon签名版本 2 正在逐渐淘汰,在 2020 年 6 月 24 日后创建的新 S3 存储桶将不支持签名版本 2 签名的请求。现有存储桶将会继续支持签名版本 2。我们建议您迁移到支持签名版本 4 的 Amazon EMR 发行版,这样您可以继续访问新的 S3 存储桶,避免工作负载中断。

现在提供支持签名版本 4 的以下 EMR 版本:emr-4.7.4、emr-4.8.5、emr-4.9.6、emr-4.10.1、emr-5.1.1、emr-5.2.3、emr -5.3.2、emr-5.4.1、emr-5.5.4、emr-5.6.1、emr-5.7.1、emr-5.8.3、emr-5.9.1、emr-5.10.1、emr-5.11 .4、emr-5.12.3、emr-5.13.1、emr-5.14.2、emr-5.15.1、emr-5.16.1、emr-5.17.2、emr-5.18.1、emr-5.19.1、emr-5.20.1 和 emr-5.21.2。EMR 版本 5.22.0 及更高版本已支持签名版本 4。

如果您使用的是诸如 Apache Spark、Apache Hive、Presto 等的 Amazon EMR 应用程序,则无需更改您的应用程序代码,即可使用签名版本 4。如果您使用的是 Amazon EMR 中未包含的自定义应用程序,则可能需要更新代码,才能使用签名版本 4。有关可能需要哪些更新的更多信息,请参阅从签名版本 2 转向签名版本 4

发行版 6.5.0(Amazon EMR 6.x 系列的最新版本)

从初始发布日期的第一个区域开始,新的 Amazon EMR 发行版将在几天内陆续在不同区域提供。在此期间,您所在区域可能无法提供最新发行版。

以下发布说明包括有关 Amazon EMR 发行版 6.5.0 的信息。更改与 6.4.0 有关。

首次发布日期:2022 年 1 月 20 日

发布更新日期:2022 年 3 月 21 日

新功能

  • [托管式扩展] Spark 随机排序数据托管式扩展优化 – Amazon EMR 5.34.0 及更高版本和 Amazon EMR 6.4.0 及更高版本支持可感知 Spark 随机排序数据(Spark 在分区之间重新分配以执行特定操作的数据)的托管式扩展。有关随机排序操作的更多信息,请参阅《Amazon EMR 管理指南》中的 在 Amazon EMR 中使用 EMR 托管扩展Spark 编程指南

  • 从 Amazon EMR 5.32.0 和 6.5.0 开始,Apache Spark 动态执行程序定型功能会默认启用。要启用或禁用此功能,您可以使用 spark.yarn.heterogeneousExecutors.enabled 配置参数。

  • 支持 Apache Iceberg 开放表格式,用于大型分析数据集。

  • 支持 ranger-trino-plugin 2.0.1-amzn-1

  • 支持 toree 0.5.0

更改、增强和解决的问题

  • Amazon EMR 6.5 发行版现在支持 Apache Iceberg 0.12.0,并通过适用于 Apache Spark 的 Amazon EMR 运行时、适用于 Presto 的 Amazon EMR 运行时和适用于 Apache Hive 的 Amazon EMR 运行时提供了运行时改进。

  • Apache Iceberg 是 Amazon S3 中适用于大型数据集的开放表格式,可提供快速的大型表查询性能、原子提交、并发写入和 SQL 兼容表演进等功能。借助 EMR 6.5,您可以将 Apache Spark 3.1.2 与 Iceberg 表格式结合使用。

  • Apache Hudi 0.9 增加了对 Spark SQL DDL 和 DML 的支持。从而让您可以仅使用 SQL 语句创建 upsert Hudi 表。Apache Hudi 0.9 还包括查询端和写入器端的性能改进。

  • 适用于 Apache Hive 的 Amazon EMR 运行时取消了暂存操作期间的重命名操作,从而提高了 Apache Hive 在 Amazon S3 上的性能,此外还提高了用于修复表的元数据仓检查(MSCK)命令的性能。

已知问题

  • 高可用性(HA)的 Hbase 捆绑集群无法使用默认卷大小和实例类型进行预置。此问题的变通解决方法是增加根卷大小。

  • 要将 Spark 操作与 Apache Oozie 一起使用,必须将以下配置添加到 Oozie workflow.xml 文件中。否则,Oozie 启动的 Spark 执行器的类路径中将丢失几个诸如 Hadoop 和 EMRFS 之类的关键库。

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>

发行版 5.34.0(Amazon EMR 5.x 系列的最新版本)

从初始发布日期的第一个区域开始,新的 Amazon EMR 发行版将在几天内陆续在不同区域提供。在此期间,您所在区域可能无法提供最新发行版。