新增功能 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

新增功能

本页介绍了 Amazon EMR 7.x、6.x 和 5.x 最新发行版中的更改和可用功能。

这些发行说明还可在亚马逊 EM R 7.1.0、亚马逊 EMR 6.15.0 和 A mazon EMR 5.36.2 页面上找到,以及每个版本的应用程序版本、组件版本和可用配置分类。

注意

更高版本的 Amazon EMR 使用 Amazon 签名版本 4 (SigV4) 来验证向 Amazon S3 发出的请求。我们建议您使用支持 SigV4 的 Amazon EMR 发行版,这样您可以访问新的 S3 存储桶,避免工作负载中断。有关更多信息和支持 SigV4 的 Amazon EMR 发行版列表,请参阅 亚马逊 EMR 和 Amazon 签名版 4

亚马逊 EMR 7.1.0(7.x 系列的最新版本)

从初始发布日期的第一个区域开始,新的 Amazon EMR 发行版将在几天内陆续在不同区域提供。在此期间,您所在区域可能无法提供最新发行版。

以下发行说明包含 Amazon EMR 7.1.0 版本的信息。更改与 7.1.0 有关。

新功能
  • 应用程序升级 – Amazon EMR 7.1.0 application upgrades include Livy 0.8.0, Trino 435, and ZooKeeper 3.9.1。

  • 不健康的节点替换 — 在 Amazon EMR 7.1.0 及更高版本中,默认启用不健康的节点替换,因此 Amazon EMR 将优雅地替换您的不健康节点。为避免影响您在 Amazon EMR 7.0.0 及更低版本上的现有工作流程,如果您在集群中禁用终止保护,则会禁用不健康的节点替换。

  • CloudWatch 代理 — 使用 Amazon EMR 配置 API 将 CloudWatch 代理配置为使用其他系统指标、添加应用程序指标和更改指标目标。

已知问题
  • EMR Studio 不支持 Python 3.11。

更改、增强功能和解决的问题
  • 虽然亚马逊 EMR 7.1.0 默认支持 Python 3.9,但亚马逊 EMR 7.1.0 中的 Livy 0.8.0 和 Spark 支持 Python 3.11。

  • 此版本修复了 PySpark 与 Python 版本 3.11 一起使用时需要逐行运行的问题。

  • 齐柏林飞艇升级 — 亚马逊 EMR 7.1.0 包括齐柏林飞艇升级到 Java 版 SDK v2。 Amazon 此次升级使齐柏林飞艇 S3 笔记本电脑能够接受定制加密材料提供商。适用于 Java 的 Amazon SDK v2 删除了该 EncryptionMaterialsProvider 接口。升级到 Amazon EMR 7.1.0 时,如果要使用自定义加密,则必须实现密钥环接口。有关如何实现密钥环接口的示例,请参阅 KmsKeyring.j ava。

  • 升级到 Amazon EMR 7.1.0 版本时,请将本地磁盘加密的自定义密钥提供程序更改为使用 AES/GCM/ 的 AES 算法生成密钥。NoPadding如果您不更新算法,集群创建可能会失败并显示错误Local disk encryption failed on master instance (i-123456789) due to internal error.。有关创建自定义密钥提供程序的更多信息,请参阅创建自定义密钥提供程序

  • Amazon EMR 7.1.0 通过改进具有打开文件句柄的文件的日志截断逻辑,提高了节点在磁盘空间不足条件下的弹性。

  • 此版本增强了编码和解码逻辑,在重启节点时使用 Amazon EMR 守护程序读取和写入文件,最大限度地降低了数据损坏和节点故障的风险。

  • 当您启动最新补丁版本为亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本的集群时,亚马逊 EMR 使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 EMR AMI。如需更多信息,请参阅 Using the default Amazon Linux AMI for Amazon EMR

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2023.3.20240219.0 6.1.77-99.164.amzn2023 2024年5月8日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)、加拿大西部(卡尔加里)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)

Amazon EMR 6.15.0(6.x 系列的最新版本)

从初始发布日期的第一个区域开始,新的 Amazon EMR 发行版将在几天内陆续在不同区域提供。在此期间,您所在区域可能无法提供最新发行版。

以下发布说明包括有关 Amazon EMR 发行版 6.15.0 的信息。更改与 6.14.0 有关。有关发布时间表的更多信息,请参阅 6.15.0 更改日志

新功能
  • 应用程序升级 – Amazon EMR 6.15.0 application upgrades include Apache Hadoop 3.3.6, Apache Hudi 0.14.0-amzn-0, Iceberg 1.4.0-amzn-0, and Trino 426.

  • 在 EC2 上运行的 EMR 集群启动更快 – 现在,在 EC2 集群上启动 Amazon EMR 的速度最多可提高 35%。通过这一改进,大多数客户可以在 5 分钟或更短时间内启动集群。

  • CodeWhisperer 对于 EMR Studio — 您现在可以将 CodeWhisperer 亚马逊与 Amazon EMR Studio 配合使用,在编写代码时获得实时推荐。 JupyterLab CodeWhisperer 可以完成您的注释、完成单行代码、提出 line-by-line 建议并生成完整格式的函数。

  • 使用 Flink 可以缩短作业重启时间 – 在 Amazon EMR 6.15.0 及更高版本中,Apache Flink 有几种新机制可用于缩短任务恢复或扩展操作期间的作业重启时间。这样可以优化执行图的恢复和重启速度,从而提高作业稳定性。

  • 开放表格式的表级和细粒度访问控制 — 在 Amazon EMR 6.15.0 及更高版本中,当您在访问 G Amazon lue 数据目录中数据的 EC2 集群上在 Amazon EMR 上运行 Spark 作业时, Amazon Lake Formation 您可以使用对基于 Hudi、Iceberg 或 Delta Lake 的表应用表、行、列和单元格级别的权限。

  • Hadoop 升级 – Amazon EMR 6.15.0 包括将 Apache Hadoop 升级到版本 3.3.6。Hadoop 3.3.6 是 Apache 于 2023 年 6 月发布 Amazon EMR 6.15 部署时的最新版本。之前发布的 Amazon EMR 版本(6.9.0 至 6.14.x)使用了 Hadoop 3.3.3。

    此次升级包括数百项改进和修复,以及包括可重新配置的数据节点参数的功能、在所有实时数据节点上启动批量重新配置操作的 DFSAdmin 选项,以及允许搜索量大的读者指定多个要读取的范围的向量化 API。Hadoop 3.3.6 还增加了对 HDFS API 的支持及其预写日志(WAL)的语义,因此 HBase 可以在其他存储系统实现上运行。有关更多信息,请参阅 Apache Hadoop 文档中的 3.3.43.3.53.3.6 版本的变更日志。

  • 支持 Amazon 适用于 Java 的 SDK,版本 2 ——亚马逊 EMR 6.15.0 应用程序可以使用 Amazon 适用于 Java 的 SDK 版本 1.12.569 或 2.20.16 0(如果应用程序支持 v2)。 Amazon 适用于 Java 2.x 的 SDK 是对 1.x 版本代码库的重大改写。它基于 Java 8+ 构建,并增加了几个请求次数较多的功能。其中包括对非阻塞 I/O 的支持以及在运行时系统插入不同 HTTP 实现的功能。有关更多信息,包括从 SDK for Java v1 到 v2 的迁移指南,请参阅 Amazon SDK for Java 版本 2 指南。

更改、增强功能和解决的问题
  • 为了改进您的高可用性 EMR 集群,此发行版允许在使用 IPv6 端点的本地主机上连接到 Amazon EMR 进程守护程序。

  • 此版本启用 TLS 1.2,以便 ZooKeeper 在您的高可用性集群的所有主节点上进行通信。

  • 此版本改进了对主节点上维护的 ZooKeeper 事务日志文件的管理,以最大限度地减少日志文件越界增长并中断集群操作的情况。

  • 此发行版使高可用性 EMR 集群的节点内通信更具弹性。此改进减小了引导操作失败或集群启动失败的几率。

  • Amazon EMR 6.15.0 中的 Tez 引入了配置,您可以指定这些配置来异步打开 Tez 分组拆分中的输入拆分。当单个 Tez 分组拆分中有大量输入拆分时,这样可以提高读取查询的性能。有关更多信息,请参阅 Tez 异步拆分打开

  • 当您启动最新补丁版本为亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本的集群时,亚马逊 EMR 使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 EMR AMI。如需更多信息,请参阅 Using the default Amazon Linux AMI for Amazon EMR

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20240223.0 4.14.336 2024 年 3 月 8 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240131.0 4.14.336 2024年2月14日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240124.0 4.14.336 2024 年 2 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240109.0 4.14.334 2024 年 1 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20231218.0 4.14.330 2024 年 1 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231206.0 4.14.330 2023 年 12 月 22 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231116.0 4.14.328 2023 年 12 月 11 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231101.0 4.14.327 2023 年 11 月 13 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(阿联酋)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)

亚马逊 EMR 5.36.2(5.x 系列的最新版本)

从初始发布日期的第一个区域开始,新的 Amazon EMR 发行版将在几天内陆续在不同区域提供。在此期间,您所在区域可能无法提供最新发行版。

以下发行说明包含 Amazon EMR 版本 5.36.2 的信息。变化是相对于 5.36.1 的。有关发布时间表的信息,请参阅更改日志

更改、增强功能和解决的问题
  • 此版本改进了集群缩容逻辑,因此 Amazon EMR 不会将核心节点缩小到低于集群的 HDFS 复制因子设置。这一改进满足了数据冗余要求,并降低了扩展操作可能停滞的机会。

  • 此版本为运行 Presto 或 Trino 的集群扩展工作流程添加了新的重试机制。这一改进降低了由于单个调整大小操作失败而导致集群调整无限期运行的风险。它还可以提高集群利用率,因为您的集群可以更快地向上和向下扩展。

  • 修复了以下问题:当 Amazon EMR 优雅地停用核心节点时,集群缩小操作可能会停止,并且核心节点在完全停用之前变为运行状况不佳。

  • 当 Amazon EMR 重启单个节点时,提高了具有多个主节点的高可用性集群中节点的稳定性。

  • 通过在亚马逊 EC2 上运行的 Amazon EMR 来优化日志管理。因此,您可能会看到集群日志的存储成本略有降低。

  • 改进了对主节点上维护的 ZooKeeper 事务日志文件的管理,以最大限度地减少日志文件越界增长并中断集群操作的情况。

  • 修复了一个罕见的错误,该错误可能导致具有多个主节点的高可用性集群因无法与 Yarn ResourceManager 通信而发生故障。

  • 当您启动最新补丁版本为亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本的集群时,亚马逊 EMR 使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 EMR AMI。如需更多信息,请参阅 Using the default Amazon Linux AMI for Amazon EMR

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20240503.0 4.14.343 xxxxxx,2024 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)

亚马逊 EMR 和 Amazon 签名版 4

亚马逊 EMR 版本使用 Amazon 签名版本 4 (SigV4) 来验证向 Amazon S3 发出的请求。2020 年 6 月 24 日之后在 Amazon S3 中创建的存储桶不支持由签名版本 2(SigV2)签名的请求。2020 年 6 月 24 日或之前创建的存储桶将继续支持 SigV2。建议您迁移到支持 SigV4 的 Amazon EMR 发行版,这样您可以访问新的 S3 存储桶,避免工作负载中断。

如果您使用的是 Amazon EMR 中包含的应用程序,例如 Apache Spark、Apache Hive 和 Presto,则无需更改应用程序代码即可使用 SigV4。如果您使用的是 Amazon EMR 中未包含的自定义应用程序,则可能需要更新代码才能使用 SigV4。有关更多信息,请参阅《Amazon S3 用户指南》中的从签名版本 2 转向签名版本 4

以下 Amazon EMR 发行版支持 SigV4:emr-4.7.4, emr-4.8.5, emr-4.9.6, emr-4.10.1, emr-5.1.1, emr-5.2.3, emr-5.3.2, emr-5.4.1, emr-5.5.4, emr-5.6.1, emr-5.7.1, emr-5.8.3, emr-5.9.1, emr-5.10.1, emr-5.11.4, emr-5.12.3, emr-5.13.1, emr-5.14.2, emr-5.15.1, emr-5.16.1, emr-5.17.2, emr-5.18.1, emr-5.19.1, emr-5.20.1, emr-5.21.2, and emr-5.22.0 and higher。所有的 6.x 和 7.x 发行版都支持 SigV4。