Amazon EMR
Amazon EMR 版本指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

最新消息

本主题介绍当前 Amazon EMR 版本中的功能和已解决的问题。版本 5.25.0 选项卡上也提供了这些发布说明,以及应用程序版本、组件版本和此版本的可用配置分类。

https://docs.amazonaws.cn/emr/latest/ReleaseGuide/amazon-emr-release-notes.rss 订阅 Amazon EMR 发行说明的 RSS 源,以便在有新的 Amazon EMR 发布版本可用时接收更新。

有关回到发布版本 4.2.0 的早期版本发布说明,请参阅Amazon EMR 新增功能历史记录

5.25.0 版本 (最新)

New Amazon EMR release versions are made available in different regions over a period of several days, beginning with the first region on the initial release date. The latest release version may not be available in your region during this period.

以下发布说明包括有关 Amazon EMR 发布版本 5.26.0 的信息。与 5.25.0 相关的更改。

首次发布日期:2019 年 8 月 8 日

上次更新日期:2019 年 8 月 19 日

升级

  • AWS SDK for Java 1.11.595

  • HBase 1.4.10

  • Phoenix 4.14.2

  • 连接器和驱动程序:

    • DynamoDB 连接器 4.11.0

    • MariaDB 连接器 2.4.2

    • Amazon Redshift JDBC 驱动程序 1.2.32.1056

新功能

  • (测试版)从 Amazon EMR 5.26.0 开始,您可以启动与 Lake Formation 集成的集群。此集成提供对 AWS Glue Data Catalog 中的数据库和表的细粒度列级别访问。此外,它可实现从企业身份系统对 EMR 笔记本或 Apache Zeppelin 的联合身份单点登录。有关更多信息,请参阅将 Amazon EMR 与 AWS Lake Formation(测试版)集成

  • (2019 年 8 月 19 日)Amazon EMR 阻止公有访问现在适用于所有支持安全组的 Amazon EMR 版本。阻止公有访问是适用于每个 AWS 区域的账户范围内的设置。当与集群关联的任何安全组具有一个允许端口上来自 IPv4 0.0.0.0/0 或 IPv6 ::/0(公有访问)的入站流量的规则时,阻止公有访问将阻止集群启动,除非将端口指定为例外。默认情况下,端口 22 是一个例外。有关更多信息,请参阅 Amazon EMR 管理指南 中的使用 Amazon EMR 阻止公有访问

更改、增强和解决的问题

  • EMR 笔记本

    • 借助 EMR 5.26.0 及更高版本,除了默认 Python 库以外,EMR 笔记本 还支持笔记本范围的 Python 库。您可以从笔记本编辑器中安装笔记本范围的库,而无需重新创建集群或将笔记本重新附加到集群。笔记本范围的库是在 Python 虚拟环境中创建的,因此它们只适用于当前笔记本会话。这样使您能够隔离笔记本依赖项。有关更多信息,请参阅 Amazon EMR 管理指南 中的使用笔记本范围的库

  • EMRFS

    • 您可以通过将 fs.s3.consistent.metadata.etag.verification.enabled 设置为 true 来启用 ETag 验证功能(测试版)。借助此功能,EMRFS 使用 Amazon S3 ETag 验证所读取的对象是否为最新可用版本。此功能对更新后读取使用案例很有帮助,此时 Amazon S3 上的文件将覆盖但保留相同名称。此 ETag 验证功能当前不可用于 S3 Select。有关更多信息,请参阅配置一致视图

  • Spark

    • 默认情况下,现在启用了以下优化:动态分区修剪、DISTINCT before INTERSECT、后跟 DISTINCT 查询的 JOIN 的 SQL 计划统计推断改进、展平标量子查询、优化的联接重新排序和 bloom 筛选条件联接。有关更多信息,请参阅优化 Spark 性能

    • 改进了排序合并联接的整个阶段的代码生成。

    • 改进了查询片段和子查询重用。

    • Spark 启动时预先分配执行程序的改进。

    • 当联接的较小一侧包含广播提示时,不再应用 bloom 筛选条件联接。

  • Tez

    • 解决了 Tez 的问题。Tez UI 现在适用于 具有多个主节点的 EMR 集群。

已知问题

  • 对于面向排序合并联接的改进的全阶段代码生成功能,在启用时会增加内存压力。此优化改进了性能,但是如果 spark.yarn.executor.memoryOverheadFactor 没有调优以提供足够的内存,则可能导致作业重试或失败。要禁用此功能,请将 spark.sql.sortMergeJoinExec.extendedCodegen.enabled 设置为 false。

本页内容: