Amazon 发行说明EMR档案 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon 发行说明EMR档案

下方提供了所有 Amazon EMR 版本的发行说明。有关每个发行版的全面版本信息,请参阅 亚马逊 EMR 6.x 发布版本亚马逊 EMR 5.x 发布版本亚马逊 EMR 4.x 发布版本

要在亚马逊新EMR版本发布时获取更新,请订阅亚马逊EMR发行说明的RSS提要

发行版 6.14.0

以下发行说明包含有关亚马逊 6.14. EMR 0 版本的信息。更改与 6.13.0 有关。有关发布时间表的更多信息,请参阅 6.14.0 更改日志

新功能
更改、增强功能和解决的问题
  • 6.14.0 版本优化了日志管理,亚马逊EMR在亚马逊上运行。EC2因此,您可能会看到集群日志的存储成本略有降低。

  • 6.14.0 版本改进了扩展工作流程,以考虑不同的核心实例,这些实例的 Ama EBS zon 卷大小差异很大。此改进仅适用于核心节点;任务节点的缩减操作不受影响。

  • 6.14.0 版本改进了 Amazon 与开源应用程序的EMR交互方式,例如 Apache Hadoop YARN ResourceManager and HDFS NameNode。 这一改进降低了集群扩展导致操作延迟的风险,并减少了由于开源应用程序的连接问题而导致的启动故障。

  • 6.14.0 发行版优化了集群启动时的应用程序安装。这缩短了某些 Amazon EMR 应用程序组合的集群启动时间。

  • 6.14.0 版本修复了一个问题,即在自定义域中运行的集群遇到核心或任务节点重启时,集群缩小操作可能会停滞的问题。VPC

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、(美国东部)、中国(北京)、中国(宁夏)、亚洲太平洋(海得拉巴)、中东(UAE)、欧洲(西班牙)、欧洲(苏黎世)、亚太地区(墨尔本)、以色列(特拉维夫)、加拿大西部(卡尔加里)
    2.0.20240223.0 4.14.336 2024 年 3 月 8 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240131.0 4.14.336 2024年2月14日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240124.0 4.14.336 2024 年 2 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240109.0 4.14.334 2024 年 1 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20231218.0 4.14.330 2024 年 1 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231206.0 4.14.330 2023 年 12 月 22 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231116.0 4.14.328 2023 年 12 月 11 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231101.0 4.14.327 2023 年 11 月 17 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230906.0 4.14.322 2023 年 9 月 11 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)

发行版 6.13.0

以下发行说明包含有关亚马逊 6.13. EMR 0 版本的信息。更改与 6.12.0 有关。有关发布时间表的更多信息,请参阅 6.13.0 更改日志

新功能
  • Amazon EMR 6.13.0 supports Apache Spark 3.4.1, Apache Spark RAPIDS 23.06.0-amzn-1, CUDA Toolkit 11.8.0, and JupyterHub 1.5.0.

更改、增强功能和解决的问题
  • 6.13.0 版本改进了 Amazon EMR 日志管理守护程序,确保在发出集群终止命令时,所有日志都按固定节奏上传到 Amazon S3。这有助于更快地终止集群。

  • 6.13.0 版本增强了 Amazon EMR 日志管理功能,可确保将所有日志文件一致且及时地上传到 Amazon S3。这尤其有利于长时间运行的EMR集群。

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20241001.0 4.14.352 2024年10月4日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240816.0 4.14.350 2024 年 8 月 21 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240809.0 4.14.349 2024 年 8 月 20 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240719.0 4.14.348 2024 年 7 月 25 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、(美国东部)、中国(北京)、中国(宁夏)、亚洲太平洋(海得拉巴)、中东(UAE)、欧洲(西班牙)、欧洲(苏黎世)、亚太地区(墨尔本)、以色列(特拉维夫)、加拿大西部(卡尔加里)
    2.0.20240223.0 4.14.336 2024 年 3 月 8 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240131.0 4.14.336 2024年2月14日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240124.0 4.14.336 2024 年 2 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240109.0 4.14.334 2024 年 1 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20231218.0 4.14.330 2024 年 1 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231206.0 4.14.330 2023 年 12 月 22 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231116.0 4.14.328 2023 年 12 月 11 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231101.0 4.14.327 2023 年 11 月 16 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231020.1 4.14.326 2023 年 11 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231012.1 4.14.326 2023 年 10 月 26 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230926.0 4.14.322 2023 年 10 月 19 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230906.0 4.14.322 2023 年 10 月 4 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230808.0 4.14.320 2023 年 8 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)

版本 6.12.0

以下发行说明包含有关亚马逊 6.12. EMR 0 版本的信息。更改与 6.11.0 有关。有关发布时间表的更多信息,请参阅 6.12.0 更改日志

新功能
  • Amazon EMR 6.12.0 supports Apache Spark 3.4.0, Apache Spark RAPIDS 23.06.0-amzn-0, CUDA 11.8.0, Apache Hudi 0.13.1-amzn-0, Apache Iceberg 1.3.0-amzn-0, Trino 414, and PrestoDB 0.281.

  • 亚马逊EMR发布了 6.12.0 及更高版本的支持,与 Apache Livy、Apache Hive 到 HiveServer 2 (HS2)、Trino、Presto 和 Hue LDAP 集成。你还可以在使用 6.12.0 或更高版本的EMR集群上安装 Apache Spark 和 Apache Hadoop,然后对其进行配置以供使用。LDAP有关更多信息,请参阅使用 Active Directory 或LDAP服务器进行亚马逊身份验证EMR

更改、增强功能和解决的问题
  • 亚马逊EMR版本 6.12.0 及更高版本为 Flink 提供了 Java 11 运行时支持。有关更多信息,请参阅 将 Flink 配置为使用 Java 11 运行

  • 6.12.0 版本为运行 Presto 或 Trino 的集群的集群扩展工作流程添加了新的重试机制。EMR这一改进降低了由于单个调整大小操作失败而导致集群大小调整无限期停滞的风险。它还可以提高集群利用率,因为您的集群可以更快地向上和向下扩展。

  • 6.12.0 版本修复了一个问题,即当处于正常停用状态的核心节点在完全停用之前出于任何原因变得运行不正常时,集群的缩减操作可能会停滞不前。

  • 6.12.0 版本改进了集群缩小逻辑,因此您的集群不会尝试将核心节点缩小到低于集群HDFS重复因子设置的范围。这符合您的数据冗余要求,并减少了扩展操作可能停滞的机会。

  • 6.12.0 版本EMR通过提高记录实例状态变化的速度,提高了 Amazon 运行状况监控服务的性能和效率。这一改进降低了运行多个自定义客户端工具或第三方应用程序的集群节点性能下降的机会。

  • 6.12.0 版本提高了 Amazon 集群日志管理守护程序的性能。EMR因此,对于以高并发度运行步骤的EMR集群,性能下降的可能性较小。

  • 在 Amazon 6.12.0 EMR 版本中,日志管理守护程序已升级,可以识别所有正在使用本地实例存储上的打开文件句柄的日志,以及相关的进程。此次升级可确保 Amazon 在日志存档到 Amazon S3 后EMR正确删除文件并回收存储空间。

  • 6.12.0 版本包括日志管理进程守护程序增强功能,可删除本地集群文件系统中空的、未使用的步骤目录。过多的空目录会降低 Amazon EMR 守护程序的性能并导致磁盘过度使用。

  • 6.12.0 版本允许对YARN时间轴服务器日志进行日志轮换。这样可以最大限度地减少磁盘过度使用情况,特别是对于长时间运行的集群。

  • 在 Amazon EMR 6.10.0 及更高版本中,默认根卷大小已增加到 15 GB。早期版本的默认根卷大小为 10 GB。

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20241001.0 4.14.352 2024年10月4日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240816.0 4.14.350 2024 年 8 月 21 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240809.0 4.14.349 2024 年 8 月 20 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240719.0 4.14.348 2024 年 7 月 25 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、(美国东部)、中国(北京)、中国(宁夏)、亚洲太平洋(海得拉巴)、中东(UAE)、欧洲(西班牙)、欧洲(苏黎世)、亚太地区(墨尔本)、以色列(特拉维夫)、加拿大西部(卡尔加里)
    2.0.20240223.0 4.14.336 2024 年 3 月 8 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240131.0 4.14.336 2024年2月14日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240124.0 4.14.336 2024 年 2 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240109.0 4.14.334 2024 年 1 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20231218.0 4.14.330 2024 年 1 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231206.0 4.14.330 2023 年 12 月 22 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231116.0 4.14.328 2023 年 12 月 11 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231101.0 4.14.327 2023 年 11 月 16 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231020.1 4.14.326 2023 年 11 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231012.1 4.14.326 2023 年 10 月 26 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230926.0 4.14.322 2023 年 10 月 19 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230906.0 4.14.322 2023 年 10 月 4 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230822.0 4.14.322 2023 年 8 月 30 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230808.0 4.14.320 2023 年 8 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230727.0 4.14.320 2023 年 8 月 14 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230719.0 4.14.320 2023 年 8 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230628.0 4.14.318 2023 年 7 月 12 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)、加拿大(中部)

版本 6.11.1

以下发行说明包含有关亚马逊 6.11.1 EMR 版本的信息。更改与 6.11.0 有关。有关发布时间表的更多信息,请参阅 6.11.1 更改日志

更改、增强功能和解决的问题
  • 由于锁争用,如果在尝试停用节点的同时添加或移除节点,则该节点可能会陷入死锁。结果,Hadoop 资源管理器 (YARN) 变得无响应,并会影响所有传入和当前正在运行的容器。

  • 此版本包括一项更改,允许高可用性集群在重启后从故障状态中恢复。

  • 此版本包含针对 Hue 和的安全补丁HBase。

  • 此版本修复了在 Spark with Amazon 上运行工作负载的集群EMR可能会在静默中收到使用containsstartsWithendsWith、和like的错误结果的问题。当您对在 Amazon EMR Hive3 Metastore 服务器中包含元数据的分区字段使用表达式时,就会出现此问题 ()。HMS

  • 此版本修复了当没有用户定义的函数时,Glue 端的限制问题 () UDF。

  • 此版本修复了一个问题,即节点日志聚合服务在日志推送器可以将容器日志推送到 S3 以防YARN停用时将其推送到 S3 之前,将其删除。

  • 此版本修复了 Hadoo FairShare p 启用节点标签时调度器指标的问题。

  • 此版本修复了您在 spark-defaults.conf 中为 spark.yarn.heterogeneousExecutors.enabled 配置设置默认 true 值时影响 Spark 性能的问题。

  • 此版本修复了 Reduce Task 无法读取随机数据的问题。该问题因内存损坏错误导致 Hive 查询失败。

  • 此版本为运行 Presto 或 Trino 的集群的集群扩展工作流程添加了新的重试机制。EMR这一改进降低了由于单个调整大小操作失败而导致集群大小调整无限期停滞的风险。它还可以提高集群利用率,因为您的集群可以更快地向上和向下扩展。

  • 此版本改进了集群缩容逻辑,因此您的集群不会尝试将核心节点缩小到低于集群HDFS重复因子设置的范围。这符合您的数据冗余要求,并减少了扩展操作可能停滞的机会。

  • 日志管理进程守护程序已升级,可以识别本地实例存储中所有包含打开文件句柄的使用中的日志,以及相关的进程。此次升级可确保 Amazon 在日志存档到 Amazon S3 后EMR正确删除文件并回收存储空间。

  • 此版本包括日志管理进程守护程序增强功能,可删除本地集群文件系统中空的、未使用的步骤目录。过多的空目录会降低 Amazon EMR 守护程序的性能并导致磁盘过度使用。

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20241001.0 4.14.352 2024年10月4日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240816.0 4.14.350 2024 年 8 月 21 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240809.0 4.14.349 2024 年 8 月 20 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240719.0 4.14.348 2024 年 7 月 25 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、(美国东部)、中国(北京)、中国(宁夏)、亚洲太平洋(海得拉巴)、中东(UAE)、欧洲(西班牙)、欧洲(苏黎世)、亚太地区(墨尔本)、以色列(特拉维夫)、加拿大西部(卡尔加里)
    2.0.20240223.0 4.14.336 2024 年 3 月 8 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240131.0 4.14.336 2024年2月14日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240124.0 4.14.336 2024 年 2 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20240109.0 4.14.334 2024 年 1 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)、加拿大西部(卡尔加里)
    2.0.20231218.0 4.14.330 2024 年 1 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231206.0 4.14.330 2023 年 12 月 22 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231116.0 4.14.328 2023 年 12 月 11 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231101.0 4.14.327 2023 年 11 月 16 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231020.1 4.14.326 2023 年 11 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231012.1 4.14.326 2023 年 10 月 26 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230926.0 4.14.322 2023 年 10 月 19 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230906.0 4.14.322 2023 年 10 月 4 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230822.0 4.14.322 2023 年 8 月 30 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230808.0 4.14.320 2023 年 8 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230727.0 4.14.320 2023 年 8 月 14 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)

版本 6.11.0

以下发行说明包含有关亚马逊 6.11. EMR 0 版本的信息。更改与 6.10.0 有关。有关发布时间表的信息,请参阅更改日志

新功能
  • 亚马逊 EMR 6.11.0 支持 Apache Spark 3.3.2-amzn-0、Apache Spark 23.02.0-amzn-0、11 CUDA .8.0、Apache Hudi 0.13.0-amzn-0、Apache Iceberg RAPIDS 1.2.0-amzn-0、Trino 410-amzn-0 和 PrestoDB 0.279-amzn-0。

更改、增强功能和解决的问题
  • 在亚马逊 EMR 6.11.0 中,DynamoDB 连接器已升级到 5.0.0 版。5.0.0 版本使用。 Amazon SDK for Java 2.x之前的版本使用的是 Amazon SDK for Java 1.x。由于此次升级,我们强烈建议您在将 DynamoDB 连接器与 Amazon 6.11 配合使用之前,先测试您的代码。EMR

  • EMR亚马逊 6.11.0 的 DynamoDB 连接器调用 DynamoDB 服务时,它将使用您为该属性提供的区域值。dynamodb.endpoint我们建议您在使用 dynamodb.endpoint 时也配置 dynamodb.region,并且两个属性都以相同的 Amazon Web Services 区域为目标。如果您使用dynamodb.endpoint但未进行配置dynamodb.region,则适用于 A EMR mazon 6.11.0 的 DynamoDB 连接器将返回无效的区域异常,并尝试协调来自EC2亚马逊实例元 Amazon Web Services 区域 数据服务的信息 ()。IMDS如果连接器无法从中检索区域IMDS,则默认为美国东部(弗吉尼亚北部)(us-east-1)。以下错误是您未正确配置该dynamodb.region属性时可能会遇到的无效区域异常的示例:error software.amazon.awssdk.services.dynamodb.model.DynamoDbException: Credential should be scoped to a valid region.有关受 Amazon SDK for Java 升级到 2.x 影响的类的更多信息,请参阅 Amazon-EMR DynamoDB 连接器存储库中的Amazon SDK for Java 从 1.x 升级到 2.x (#175) 提交。 GitHub

  • 此版本修复了在执行列重命名操作后使用 Delta Lake 在 Amazon S3 中存储 Delta 表数据时列数据变为 NULL 的问题。有关 Delta Lake 中此实验性功能的更多信息,请参阅《Delta Lake User Guide》中的 Column rename operation

  • 6.11.0 版本修复了通过从具有多个主节点的集群中复制一个主节点来创建边缘节点时可能出现的问题。复制的边缘节点可能会导致缩减操作的延迟,或者导致主节点的内存使用率过高。有关如何创建边缘节点以与EMR集群通信的更多信息,请参阅存储库中的 Edge Node Creat aws-samples or。 GitHub

  • 6.11.0 版本改进了亚马逊用于在重启后EMR将 Amazon 卷EBS重新安装到实例的自动化流程。

  • 6.11.0 版本修复了导致亚马逊向亚马逊EMR发布的 Hadoop 指标间歇性出现差距的问题。 CloudWatch

  • 6.11.0 版本修复了EMR群集中的一个问题,即由于磁盘过度使用而中断了对包含群集节点排除列表的YARN配置文件的更新。不完整的更新阻碍了未来对集群的缩减操作。此版本可确保您的集群保持正常运行,并确保扩展操作按预期进行。

  • 在 Amazon EMR 6.10.0 及更高版本中,默认根卷大小已增加到 15 GB。早期版本的默认根卷大小为 10 GB。

  • Hadoop 3.3.3 在 YARN (YARN-9608) 中引入了一项更改,即在应用程序完成之前,容器运行的节点一直处于停用状态。此更改可确保如随机数据等本地数据不会丢失,并且您无需重新运行作业。无论是否启用托管扩展,这种方法还可能导致集群的资源利用不足。

    在亚马逊EMR版本 6.11.0 及更高版本以及 6.8.1、6.9.1 和 6.10.1 中,将的值设置yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications为 in 以false解决此问题。yarn-site.xml

    虽然该修复程序解决了 YARN -9608 引入的问题,但由于启用了托管扩展的集群上的洗牌数据丢失,它可能会导致 Hive 作业失败。在此版本中,我们还通过设置 Hive yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-shuffle-data 工作负载来降低这种风险。此配置仅适用于亚马逊 6.11.0 及更高EMR版本。

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    注意

    此版本不再获得自动AMI更新,因为又有 1 个补丁版本接替了该版本。补丁版本以第二位小数点后的数字 (6.8.1) 表示。要查看您是否使用的是最新补丁版本,请查看发布指南中的可用版本,或者在控制台中创建集群时查看 Amazon EMR 版本下拉列表,或者使用ListReleaseLabelsAPI或list-release-labelsCLI操作。要获取有关新版本的更新,请订阅 “新增内容?” RSS 页面。

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20241001.0 4.14.352 2024年10月4日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240816.0 4.14.350 2024 年 8 月 21 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240809.0 4.14.349 2024 年 8 月 20 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240719.0 4.14.348 2024 年 7 月 25 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、(美国东部)、中国(北京)、中国(宁夏)、亚洲太平洋(海得拉巴)、中东(UAE)、欧洲(西班牙)、欧洲(苏黎世)、亚太地区(墨尔本)、以色列(特拉维夫)、加拿大西部(卡尔加里)
    2.0.20230808.0 4.14.320 2023 年 8 月 24 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230727.0 4.14.320 2023 年 8 月 14 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230719.0 4.14.320 2023 年 8 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230628.0 4.14.318 2023 年 7 月 12 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(米兰)、欧洲(西班牙)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)
    2.0.20230612.0 4.14.314 2023 年 6 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(米兰)、欧洲(西班牙)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)
    2.0.20230504.1 4.14.313 2023 年 5 月 16 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)、加拿大(中部)

版本 6.10.0

以下发行说明包含有关亚马逊 6.10. EMR 0 版本的信息。更改与 6.9.0 有关。有关发布时间表的信息,请参阅更改日志

新功能
  • 亚马逊 EMR 6.10.0 支持 Apache Spark 3.1、Apache Spark RAPIDS 22.12.0、CUDA 11.8.0、Apache Hudi 0.12.2-amzn-0、Apache Iceberg 1.1.0-amzn-0、Trino 403 和 PrestoDB 0.278.1。

  • 亚马逊 EMR 6.10.0 包含原生 Trino-Hudi 连接器,可提供对 Hudi 表中数据的读取权限。您可以使用 trino-cli --catalog hudi 激活连接器,并使用 trino-connector-hudi 配置连接器以满足您的要求。与 Amazon 的原生集成EMR意味着您不再需要使用trino-connector-hive来查询 Hudi 表。有关新连接器支持的配置列表,请参阅 Trino 文档的 Hudi connector 页面。

  • 亚马逊EMR发布的 6.10.0 及更高版本支持 Apache Zeppelin 与 Apache Flink 集成。请参阅在 Amazon EMR 中通过 Zeppelin 使用 Flink 作业了解更多信息。

已知问题
  • Hadoop 3.3.3 在 YARN (YARN-9608) 中引入了一项更改,即在应用程序完成之前,容器运行的节点一直处于停用状态。此更改可确保如随机数据等本地数据不会丢失,并且您无需重新运行作业。无论是否启用托管扩展,这种方法还可能导致集群的资源利用不足。

    要在 Amazon EMR 6.10.0 中解决此问题,您可以将的值设置为yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applicationsfalse yarn-site.xml在亚马逊EMR版本 6.11.0 及更高版本以及 6.8.1、6.9.1 和 6.10.1 中,配置false默认设置为以解决此问题。

更改、增强功能和解决的问题
  • 亚马逊 EMR 6.10.0 消除了对 A pache Spark Amazon Redshift 集成的依赖,并自动将所需的 Spark-Redshift 相关的 jar 添加到 Spark:、和的执行器类路径中。minimal-json.jar spark-redshift.jar spark-avro.jar RedshiftJDBC.jar

  • 6.10.0 版本改进了集群上的日志管理守护程序,可以监视集群中的其他日志文件夹。EMR这一改进最大限度地减少了磁盘过度使用情况。

  • 6.10.0 版本在集群上日志管理进程守护程序停止后会自动重启该守护程序。这一改进降低了由于磁盘过度使用而导致节点出现运行状况不佳的风险。

  • Amazon EMR 6.10.0 支持用于EMRFS用户映射的区域终端节点。

  • 在 Amazon EMR 6.10.0 及更高版本中,默认根卷大小已增加到 15 GB。早期版本的默认根卷大小为 10 GB。

  • 6.10.0 版本修复了当所有剩余的 Spark 执行器都在使用资源管理器的停用主机上时,导致 Spark 作业停滞的问题。YARN

  • 在 Amazon EMR 6.0 到 6.9.x 中,具有动态分区和 BY 或 BY 子句ORDER的INSERT查询将始终有SORT两个缩减器。此问题是由OSS更改 HIVE-20703 引起的,它将动态排序分区优化置于基于成本的决策之下。如果您的工作负载不需要对动态分区进行排序,建议将 hive.optimize.sort.dynamic.partition.threshold 属性设置为 -1 以禁用新功能并获得计算正确的 Reducer 数量。此问题已在 OSS Hive 中作为 HIVE-22269 的一部分修复,并已在亚马逊 6.10.0 中修复。EMR

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    注意

    此版本不再获得自动AMI更新,因为又有 1 个补丁版本接替了该版本。补丁版本以第二位小数点后的数字 (6.8.1) 表示。要查看您是否使用的是最新补丁版本,请查看发布指南中的可用版本,或者在控制台中创建集群时查看 Amazon EMR 版本下拉列表,或者使用ListReleaseLabelsAPI或list-release-labelsCLI操作。要获取有关新版本的更新,请订阅 “新增内容?” RSS 页面。

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20241001.0 4.14.352 2024年10月4日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240816.0 4.14.350 2024 年 8 月 21 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240809.0 4.14.349 2024 年 8 月 20 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240719.0 4.14.348 2024 年 7 月 25 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、(美国东部)、中国(北京)、中国(宁夏)、亚洲太平洋(海得拉巴)、中东(UAE)、欧洲(西班牙)、欧洲(苏黎世)、亚太地区(墨尔本)、以色列(特拉维夫)、加拿大西部(卡尔加里)
    2.0.20230808.0 4.14.320 2023 年 8 月 24 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230727.0 4.14.320 2023 年 8 月 14 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230719.0 4.14.320 2023 年 8 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230628.0 4.14.318 2023 年 7 月 12 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(米兰)、欧洲(西班牙)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)
    2.0.20230612.0 4.14.314 2023 年 6 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(米兰)、欧洲(西班牙)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)
    2.0.20230504.1 4.14.313 2023 年 5 月 16 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(米兰)、欧洲(西班牙)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)
    2.0.20230418.0 4.14.311 2023 年 5 月 3 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(米兰)、欧洲(西班牙)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)
    2.0.20230404.1 4.14.311 2023 年 4 月 18 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(香港)大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(UAE)
    2.0.20230404.0 4.14.311 2023 年 4 月 10 日 美国东部(弗吉尼亚州北部)、欧洲地区(巴黎)
    2.0.20230320.0 4.14.309 2023 年 3 月 30 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(香港)大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(UAE)
    2.0.20230207.0 4.14.304 2023 年 2 月 22 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、加拿大(中部)、欧洲(斯德哥尔摩)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、欧洲(法兰克福)、欧洲(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(首尔)、亚太地区(香港)大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(UAE)

发行版 6.9.0

以下发行说明包含 Amazon 6.9. EMR 0 版本的信息。更改与亚马逊 6.8.0 EMR 版本有关。有关发布时间表的信息,请参阅更改日志

新功能
  • 亚马逊EMR版本 6.9.0 支持 Apache Spark RAPIDS 22.08.0、Apache Hudi 0.12.1、Apache Iceberg 0.14.1、Trino 398 和 Tez 0.10.2。

  • 亚马逊 6.9.0 EMR 版本包括一个新的开源应用程序 2.1.0。Delta Lake

  • 适用于 Apache Spark 的 Amazon Redshift 集成包含在亚马逊 6.9.0 及更高EMR版本中。本地集成之前是一种开源工具,现在是 Spark 连接器,您可以将其用于构建 Apache Spark 应用程序,这些应用程序可在 Amazon Redshift 和 Amazon Redshift Serverless 中读取和写入数据。有关更多信息,请参阅 使用亚马逊 Redshift 与 Apache Spark 的集成与亚马逊 EMR

  • Amazon EMR 版本 6.9.0 增加了对集群缩小期间将日志存档到 Amazon S3 的支持。之前,您只能在集群终止期间将日志文件存档到 Amazon S3。这项新功能可确保即使在节点终止后,集群上生成的日志文件仍保留在 Amazon S3 上。有关更多信息,请参阅配置集群日志记录和调试

  • 为了支持长时间运行的查询,Trino 现在包括容错执行机制。容错执行通过重试失败的查询或其组件任务来减少查询失败。有关更多信息,请参阅 Trino 中的容错执行

  • 你可以使用亚马逊EMR上的 Apache Flink 来统一BATCHSTREAM处理 Apache Hive 表或任何 Flink 表源的元数据,例如 Iceberg、Kinesis 或 Kafka。你可以使用、或 Amazon 将 Amazon Glue 数据目录指定为 Flink 的 Amazon Web Services Management Console元数据库。 Amazon CLI EMR API有关更多信息,请参阅 在亚马逊中配置 Flink EMR

  • 现在,你可以在装有 Amazon Studio 的EMR集群上为亚马逊上的 Apache Spark、Apache Hive 和 Presto 查询指定 Amazon Identity and Access Management (IAM) 运行时角色和 Amazon Lake Formation基于访问控制EC2的权限。 SageMaker 有关更多信息,请参阅为 Amazon EMR 步骤配置运行时角色

已知问题
  • 对于亚马逊EMR版本 6.9.0,Trino 不适用于启用 Apache Ranger 的集群。如果您需要将 Trino 与 Ranger 结合使用,请联系 Amazon Web Services Support

  • 如果您使用适用于 Apache Spark 的 Amazon Redshift 集成,并且具有 Parquet 格式的时间、timetz、时间戳或 timestamptz(精度为微秒),连接器会将时间值舍入为最接近的毫秒值。解决方法是使用文本卸载格式 unload_s3_format 参数。

  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

  • 从 Amazon SageMaker Studio 到亚马逊EMR集群的连接可能会间歇性失败,并显示 403 禁止的响应代码。当在集群上设置IAM角色的时间超过 60 秒时,就会发生此错误。解决方法是,您可以安装 Amazon EMR 补丁以启用重试并将超时时间延长到最少 300 秒。启动集群时,按照以下步骤应用引导操作。

    1. 从以下 Amazon S3 URIs 下载引导脚本和RPM文件。

      s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/replace-rpms.sh s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/gcsc/emr-secret-agent-1.18.0-SNAPSHOT20221121212949.noarch.rpm
    2. 将上一步中的文件上传到您自己的 Amazon S3 存储桶中。存储桶必须与您计划启动集群的 Amazon Web Services 区域 位置相同。

    3. 在启动EMR集群时包括以下引导操作。Replace(替换) bootstrap_URI 以及 RPM_URI 以及URIs来自亚马逊 S3 的相应内容。

      --bootstrap-actions "Path=bootstrap_URI,Args=[RPM_URI]"
  • 在 Amazon 5.36.0 和 6.6.0 到 6.9.0 EMR 版本中,由于 Log4 SecretAgent j2 属性中的文件名模式配置不正确,RecordServer服务组件可能会丢失日志数据。错误的配置导致组件每天只生成一个日志文件。当应用轮换策略时,它会重写现有文件,而不是按预期生成新的日志文件。应变方法是使用引导操作每小时生成一次日志文件,并在文件名中附加一个自动增量的整数来处理轮换。

    对于 Amazon EMR 6.0 到 6.9.0 版本,请在启动集群时使用以下引导操作。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    对于 Amazon EMR 5.36.0,请在启动集群时使用以下引导操作。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • Apache Flink 提供原生 S3 FileSystem 和 Hadoop FileSystem 连接器,允许应用程序创建 FileSink 并将数据写入 Amazon S3。这 FileSink 会失败,但有以下两个例外情况之一。

    java.lang.UnsupportedOperationException: Recoverable writers on Hadoop are only supported for HDFS
    Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.io.retry.RetryPolicies.retryOtherThanRemoteAndSaslException(Lorg/apache/hadoop/io/retry/RetryPolicy;Ljava/util/Map;)Lorg/apache/hadoop/io/retry/RetryPolicy; at org.apache.hadoop.yarn.client.RMProxy.createRetryPolicy(RMProxy.java:302) ~[hadoop-yarn-common-3.3.3-amzn-0.jar:?]

    要解决这个问题,你可以安装一个 Amazon EMR 补丁,该补丁修复了 Flink 中的上述问题。要在启动集群时应用引导操作,请完成以下步骤。

    1. 将 flink-rpm 下载到 Amazon S3 存储桶中。你的RPM路是s3://DOC-EXAMPLE-BUCKET/rpms/flink/

    2. 使用以下URI命令从 Amazon S3 下载引导脚本和RPM文件。regionName替换为您计划启动集群 Amazon Web Services 区域 的位置。

      s3://emr-data-access-control-regionName/customer-bootstrap-actions/gcsc/replace-rpms.sh
    3. Hadoop 3.3.3 在 YARN (YARN-9608) 中引入了一项更改,即在应用程序完成之前,容器运行的节点一直处于停用状态。此更改可确保如随机数据等本地数据不会丢失,并且您无需重新运行作业。在 Amazon EMR 6.8.0 和 6.9.0 中,这种方法还可能导致启用或未启用托管扩展的集群上的资源利用不足。

      在 A mazon EMR 6.10.0 中,有一种解决方法可以将的yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications值设置为 in。false yarn-site.xml在亚马逊EMR版本 6.11.0 及更高版本以及 6.8.1、6.9.1 和 6.10.1 中,配置false默认设置为以解决此问题。

更改、增强和解决的问题
  • 对于亚马逊 6.9.0 及更高EMR版本,亚马逊EMR安装的所有使用 Log4j 库的组件都使用 Log4j 版本 2.17.1 或更高版本。

  • 当您在EMR亚马逊 6.0、6.7.0 和 6.8.0 版本上将 DynamoDB 连接器与 Spark 配合使用时,即使输入拆分引用非空数据,所有从表中读取的内容都会返回空结果。亚马逊 6.9.0 EMR 版本修复了这个问题。

  • 当使用 Spark 读取数据时,亚马逊 EMR 6.9.0 增加了对基于 Lake Formation 的 Apache Hudi 访问控制的有限支持。SQL支持使用 Spark 的SELECT查询,SQL并且仅限于列级访问控制。有关更多信息,请参阅 Hudi 和 Lake Formation

  • 当您使用 Amazon EMR 6.9.0 创建启用了节点标签的 Hadoop 集群时,YARN指标会API返回所有分区的汇总信息,而不是默认分区。有关更多信息,请参阅 YARN-11414

  • 在亚马逊6.9.0 EMR 版本中,我们已将Trino更新到使用Java 17的398版本。之前支持的亚马逊 EMR 6.8.0 版 Trino 版本是在 Java 11 上运行的 Trino 388。有关此变更的更多信息,请参阅 Trino 博客上的 Trino updates to Java 17

  • 此版本修复了 Apache BigTop 和 Amaz EMR on EC2 集群启动序列之间的时间序列不匹配问题。当系统尝试同时执行两个或多个操作而不是按正确的顺序执行它们时,就会发生这种计时序列不匹配。因此,某些集群配置会遇到实例启动超时和较慢的集群启动时间。

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    注意

    此版本不再获得自动AMI更新,因为又有 1 个补丁版本接替了该版本。补丁版本以第二位小数点后的数字 (6.8.1) 表示。要查看您是否使用的是最新补丁版本,请查看发布指南中的可用版本,或者在控制台中创建集群时查看 Amazon EMR 版本下拉列表,或者使用ListReleaseLabelsAPI或list-release-labelsCLI操作。要获取有关新版本的更新,请订阅 “新增内容?” RSS 页面。

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20241001.0 4.14.352 2024年10月4日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240816.0 4.14.350 2024 年 8 月 21 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240809.0 4.14.349 2024 年 8 月 20 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240719.0 4.14.348 2024 年 7 月 25 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、(美国东部)、中国(北京)、中国(宁夏)、亚洲太平洋(海得拉巴)、中东(UAE)、欧洲(西班牙)、欧洲(苏黎世)、亚太地区(墨尔本)、以色列(特拉维夫)、加拿大西部(卡尔加里)
    2.0.20230808.0 4.14.320 2023 年 8 月 24 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230727.0 4.14.320 2023 年 8 月 14 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230719.0 4.14.320 2023 年 8 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中部)、以色列(特拉维夫)
    2.0.20230628.0 4.14.318 2023 年 7 月 12 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230612.0 4.14.314 2023 年 6 月 23 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230504.1 4.14.313 2023 年 5 月 16 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230418.0 4.14.311 2023 年 5 月 3 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230404.1 4.14.311 2023 年 4 月 18 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230404.0 4.14.311 2023 年 4 月 10 日 美国东部(弗吉尼亚州北部)、欧洲地区(巴黎)
    2.0.20230320.0 4.14.309 2023 年 3 月 30 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230307.0 4.14.305 2023 年 3 月 15 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230207.0 4.14.304 2023 年 2 月 22 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221210.1 4.14.301 2023 年 1 月 12 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221103.3 4.14.296 2022 年 12 月 5 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)

发行版 6.8.0

以下发行说明包含 Amazon 6.8.0 EMR 版本的信息。更改与 6.7.0 有关。

新功能
  • Amaz EMR on steps 功能现在支持 Apache Livy 终端节点和JDBC/ODBC客户端。有关更多信息,请参阅为 Amazon EMR 步骤配置运行时角色

  • 亚马逊EMR版本6.8.0附带了Apache HBase 版本2.4.12。在此HBase版本中,您可以存档和删除HBase表。Amazon S3 存档过程会将所有表文件重命名为存档目录。这一过程成本高昂且时间较长。现在,您可以跳过存档过程,快速删除大型表。有关更多信息,请参阅 使用外HBase壳

已知问题
  • Hadoop 3.3.3 在 YARN (YARN-9608) 中引入了一项更改,即在应用程序完成之前,容器运行的节点一直处于停用状态。此更改可确保如随机数据等本地数据不会丢失,并且您无需重新运行作业。在 Amazon EMR 6.8.0 和 6.9.0 中,这种方法还可能导致启用或未启用托管扩展的集群上的资源利用不足。

    在 A mazon EMR 6.10.0 中,有一种解决方法可以将的yarn.resourcemanager.decommissioning-nodes-watcher.wait-for-applications值设置为 in。false yarn-site.xml在亚马逊EMR版本 6.11.0 及更高版本以及 6.8.1、6.9.1 和 6.10.1 中,配置false默认设置为以解决此问题。

更改、增强和解决的问题
  • 当亚马逊EMR发布 6.5.0、6.6.0 或 6.7.0 通过 Apache Spark shell 读取 Apache Phoenix 表时,亚马逊制作了一个。EMR NoSuchMethodError亚马逊EMR版本 6.8.0 修复了这个问题。

  • 亚马逊EMR版本6.8.0附带A pache Hudi 0.11.1;但是,EMR亚马逊6.8.0集群也与Hudi 0.12.0的开源集群兼容。hudi-spark3.3-bundle_2.12

  • 亚马逊EMR版本 6.8.0 附带了 Apache Spark 3.0。此 Spark 发行版使用 Apache Log4j 2 和 log4j2.properties 文件,在 Spark 进程中配置 Log4j。如果您在集群中使用 Spark 或使用自定义配置参数创建EMR集群,并且想要升级到 Amazon EMR 版本 6.8.0,则必须迁移到 Apache Log4j 2 的新spark-log4j2配置分类和密钥格式。有关更多信息,请参阅 从 Apache Log4j 1.x 迁移到 Log4j 2.x

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    注意

    此版本不再获得自动AMI更新,因为又有 1 个补丁版本接替了该版本。补丁版本以第二位小数点后的数字 (6.8.1) 表示。要查看您是否使用的是最新补丁版本,请查看发布指南中的可用版本,或者在控制台中创建集群时查看 Amazon EMR 版本下拉列表,或者使用ListReleaseLabelsAPI或list-release-labelsCLI操作。要获取有关新版本的更新,请订阅 “新增内容?” RSS 页面。

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20241001.0 4.14.352 2024年10月4日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240816.0 4.14.350 2024 年 8 月 21 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240809.0 4.14.349 2024 年 8 月 20 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240719.0 4.14.348 2024 年 7 月 25 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、(美国东部)、中国(北京)、中国(宁夏)、亚洲太平洋(海得拉巴)、中东(UAE)、欧洲(西班牙)、欧洲(苏黎世)、亚太地区(墨尔本)、以色列(特拉维夫)
    2.0.20230808.0 4.14.320 2023 年 8 月 24 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)
    2.0.20230727.0 4.14.320 2023 年 8 月 14 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、
    2.0.20230719.0 4.14.320 2023 年 8 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、亚太地区(墨尔本)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东()、中东(UAE)、加拿大(中央)
    2.0.20230628.0 4.14.318 2023 年 7 月 12 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230612.0 4.14.314 2023 年 6 月 23 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230504.1 4.14.313 2023 年 5 月 16 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230418.0 4.14.311 2023 年 5 月 3 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230404.1 4.14.311 2023 年 4 月 18 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230404.0 4.14.311 2023 年 4 月 10 日 美国东部(弗吉尼亚州北部)、欧洲地区(巴黎)
    2.0.20230320.0 4.14.309 2023 年 3 月 30 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230307.0 4.14.305 2023 年 3 月 15 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230207.0 4.14.304 2023 年 2 月 22 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230119.1 4.14.301 2023 年 2 月 3 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221210.1 4.14.301 2023 年 12 月 22 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221103.3 4.14.296 2022 年 12 月 5 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221004.0 4.14.294 2022 年 11 月 2 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20220912.1 4.14.291 2022 年 9 月 6 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
已知问题
  • 当您在EMR亚马逊 6.0、6.7.0 和 6.8.0 版本上将 DynamoDB 连接器与 Spark 配合使用时,即使输入拆分引用非空数据,所有从表中读取的内容都会返回空结果。这是因为 Spark 3.2.0 将 spark.hadoopRDD.ignoreEmptySplits 默认设置为 true。解决方法是将 spark.hadoopRDD.ignoreEmptySplits 显式设置为 false。亚马逊 6.9.0 EMR 版本修复了这个问题。

  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

  • 在 Amazon 5.36.0 和 6.6.0 到 6.9.0 EMR 版本中,由于 Log4 SecretAgent j2 属性中的文件名模式配置不正确,RecordServer服务组件可能会丢失日志数据。错误的配置导致组件每天只生成一个日志文件。当应用轮换策略时,它会重写现有文件,而不是按预期生成新的日志文件。应变方法是使用引导操作每小时生成一次日志文件,并在文件名中附加一个自动增量的整数来处理轮换。

    对于 Amazon EMR 6.0 到 6.9.0 版本,请在启动集群时使用以下引导操作。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    对于 Amazon EMR 5.36.0,请在启动集群时使用以下引导操作。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

有关发布时间表的更多信息,请参阅更改日志

发行版 6.7.0

以下发行说明包含 Amazon 6.7. EMR 0 版本的信息。更改与 6.6.0 有关。

首次发布日期:2022 年 7 月 15 日

新功能
  • 亚马逊EMR现在支持 Apache Spark 3.2.1、Apache Hive 3.1.3、0.11 HUDI、PrestoDB 0.272 和 Trino 0.378。

  • 通过集群上的 Ama EMR zon EMR 步骤(Spark、Hive)支持基于IAM角色和湖泊组成的访问控制。EC2

  • 在启用 Apache Ranger 的集群上支持 Apache Spark 数据定义语句。现在,这包括支持 Trino 应用程序在启用 Apache Ranger 的集群上读取和写入 Apache Hive 元数据。有关更多信息,请参阅在亚马逊上使用 Trino 和 Apache Ranger 启用联合治理。EMR

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20241001.0 4.14.352 2024年10月4日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240816.0 4.14.350 2024 年 8 月 21 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240809.0 4.14.349 2024 年 8 月 20 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240719.0 4.14.348 2024 年 7 月 25 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、 Amazon GovCloud (美国东部)、(美国东部)、中国(北京)、中国(宁夏)、亚洲太平洋(海得拉巴)、中东(UAE)、欧洲(西班牙)、欧洲(苏黎世)
    2.0.20240223.0 4.14.336 2024 年 3 月 8 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240131.0 4.14.336 2024年2月14日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240124.0 4.14.336 2024 年 2 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240109.0 4.14.334 2024 年 1 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231218.0 4.14.330 2024 年 1 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231206.0 4.14.330 2023 年 12 月 22 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231116.0 4.14.328 2023 年 12 月 11 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231101.0 4.14.327 2023 年 11 月 16 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231020.1 4.14.326 2023 年 11 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231012.1 4.14.326 2023 年 10 月 26 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230926.0 4.14.322 2023 年 10 月 19 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230906.0 4.14.322 2023 年 10 月 4 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)
    2.0.20230822.0 4.14.322 2023 年 8 月 30 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)
    2.0.20230808.0 4.14.320 2023 年 8 月 24 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)
    2.0.20230727.0 4.14.320 2023 年 8 月 14 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)
    2.0.20230719.0 4.14.320 2023 年 8 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)、加拿大(中部)
    2.0.20230628.0 4.14.318 2023 年 7 月 12 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230612.0 4.14.314 2023 年 6 月 23 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230504.1 4.14.313 2023 年 5 月 16 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230418.0 4.14.311 2023 年 5 月 3 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230404.1 4.14.311 2023 年 4 月 18 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230404.0 4.14.311 2023 年 4 月 10 日 美国东部(弗吉尼亚州北部)、欧洲地区(巴黎)
    2.0.20230320.0 4.14.309 2023 年 3 月 30 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230307.0 4.14.305 2023 年 3 月 15 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230207.0 4.14.304 2023 年 2 月 22 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230119.1 4.14.301 2023 年 2 月 3 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221210.1 4.14.301 2023 年 12 月 22 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221103.3 4.14.296 2022 年 12 月 5 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221004.0 4.14.294 2022 年 11 月 2 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20220912.1 4.14.291 2022 年 10 月 7 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20220719.0 4.14.287 2022 年 8 月 10 日 us‑west‑1, eu‑west‑3, eu‑north‑1, ap‑south‑1, me‑south‑1
    2.0.20220606.1 4.14.281 2022 年 7 月 15 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
已知问题
  • 当亚马逊EMR版本 6.5.0、6.6.0 或 6.7.0 通过 Apache Spark 外壳读取 Apache Phoenix 表时,会发生这种情况NoSuchMethodError是因为亚马逊使用了错误的。EMR Hbase.compat.version亚马逊EMR版本 6.8.0 修复了这个问题。

  • 当您在EMR亚马逊 6.0、6.7.0 和 6.8.0 版本上将 DynamoDB 连接器与 Spark 配合使用时,即使输入拆分引用非空数据,所有从表中读取的内容都会返回空结果。这是因为 Spark 3.2.0 将 spark.hadoopRDD.ignoreEmptySplits 默认设置为 true。解决方法是将 spark.hadoopRDD.ignoreEmptySplits 显式设置为 false。亚马逊 6.9.0 EMR 版本修复了这个问题。

  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

  • 在 Amazon 5.36.0 和 6.6.0 到 6.9.0 EMR 版本中,由于 Log4 SecretAgent j2 属性中的文件名模式配置不正确,RecordServer服务组件可能会丢失日志数据。错误的配置导致组件每天只生成一个日志文件。当应用轮换策略时,它会重写现有文件,而不是按预期生成新的日志文件。应变方法是使用引导操作每小时生成一次日志文件,并在文件名中附加一个自动增量的整数来处理轮换。

    对于 Amazon EMR 6.0 到 6.9.0 版本,请在启动集群时使用以下引导操作。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    对于 Amazon EMR 5.36.0,请在启动集群时使用以下引导操作。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"
  • 在 Amazon EMR 6.7 或更低版本上运行的集群GetClusterSessionCredentialsAPI不支持。

发行版 6.6.0

以下发行说明包含 Amazon 6.6. EMR 0 版本的信息。更改与 6.5.0 有关。

首次发布日期:2022 年 5 月 9 日

文档更新日期:2022 年 6 月 15 日

新功能
  • 亚马逊 EMR 6.6 现在支持 Apache Spark 3.2、Apache Spark RAPIDS 22.02、CUDA 11、Apache Hudi 0.10.1、Apache Iceberg 0.13、Trino 0.367 和 PrestoDB 0.267。

  • 当您启动具有最新补丁版本(亚马逊 EMR 5.36 或更高版本、6.6 或更高版本、7.0 或更高版本)的集群时,亚马逊将EMR使用最新的亚马逊 Linux 2023 或亚马逊 Linux 2 版本作为默认亚马逊 Linux 2 版本。EMR AMI有关更多信息,请参阅使用亚马逊的默认 Amazon Linux AMI EMR

    OsReleaseLabel (亚马逊 Linux 版本) Amazon Linux 内核版本 可用日期 支持的区域
    2.0.20241001.0 4.14.352 2024年10月4日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240816.0 4.14.350 2024 年 8 月 21 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240809.0 4.14.349 2024 年 8 月 20 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240719.0 4.14.348 2024 年 7 月 25 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240709.1 4.14.348 2024 年 7 月 23 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240223.0 4.14.336 2024 年 3 月 8 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240131.0 4.14.336 2024年2月14日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240124.0 4.14.336 2024 年 2 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20240109.0 4.14.334 2024 年 1 月 24 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231218.0 4.14.330 2024 年 1 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231206.0 4.14.330 2023 年 12 月 22 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231116.0 4.14.328 2023 年 12 月 11 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231101.0 4.14.327 2023 年 11 月 16 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231020.1 4.14.326 2023 年 11 月 7 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20231012.1 4.14.326 2023 年 10 月 26 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230926.0 4.14.322 2023 年 10 月 19 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(法兰克福)、欧洲(爱尔兰)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(新加坡)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)、 Amazon GovCloud (美国西部)、(美国东部)、 Amazon GovCloud (美国东部)、中国(北京)、中国(宁夏)
    2.0.20230906.0 4.14.322 2023 年 10 月 4 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)
    2.0.20230822.0 4.14.322 2023 年 8 月 30 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)
    2.0.20230808.0 4.14.320 2023 年 8 月 24 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)
    2.0.20230727.0 4.14.320 2023 年 8 月 14 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、欧洲地区(斯德哥尔摩)、欧洲地区(米兰)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、加拿大(中部)
    2.0.20230719.0 4.14.320 2023 年 8 月 2 日 美国东部(弗吉尼亚北部)、美国东部(俄亥俄州)、美国西部(加利福尼亚北部)、美国西部(俄勒冈)、欧洲(斯德哥尔摩)、欧洲(米兰)、欧洲(西班牙)、欧洲(法兰克福)、欧洲(苏黎世)、欧洲(伦敦)、欧洲(巴黎)、亚太地区(香港)、亚太地区(孟买)、亚太地区(海得拉巴)、亚太地区(东京)、亚太地区(东京)、亚太地区(首尔))、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、亚太地区(雅加达)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)、中东(巴林)、中东(UAE)、加拿大(中部)
    2.0.20230628.0 4.14.318 2023 年 7 月 12 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230612.0 4.14.314 2023 年 6 月 23 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230504.1 4.14.313 2023 年 5 月 16 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230418.0 4.14.311 2023 年 5 月 3 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230404.1 4.14.311 2023 年 4 月 18 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230404.0 4.14.311 2023 年 4 月 10 日 美国东部(弗吉尼亚州北部)、欧洲地区(巴黎)
    2.0.20230320.0 4.14.309 2023 年 3 月 30 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230307.0 4.14.305 2023 年 3 月 15 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230207.0 4.14.304 2023 年 2 月 22 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20230119.1 4.14.301 2023 年 2 月 3 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221210.1 4.14.301 2023 年 12 月 22 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221103.3 4.14.296 2022 年 12 月 5 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20221004.0 4.14.294 2022 年 11 月 2 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20220912.1 4.14.291 2022 年 10 月 7 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20220805.0 4.14.287 2022 年 8 月 30 日 us‑west‑1
    2.0.20220719.0 4.14.287 2022 年 8 月 10 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20220426.0 4.14.281 2022 年 6 月 10 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
    2.0.20220406.1 4.14.275 2022 年 5 月 2 日 美国东部(弗吉尼亚州北部)、美国东部(俄亥俄州)、美国西部(北加利福尼亚)、美国西部(俄勒冈州)、加拿大(中部)、欧洲地区(斯德哥尔摩)、欧洲地区(爱尔兰)、欧洲地区(伦敦)、欧洲地区(巴黎)、欧洲地区(法兰克福)、欧洲地区(米兰)、亚太地区(香港)、亚太地区(孟买)、亚太地区(雅加达)、亚太地区(东京)、亚太地区(首尔)、亚太地区(大阪)、亚太地区(新加坡)、亚太地区(悉尼)、非洲(开普敦)、南美洲(圣保罗)、中东(巴林)
  • 在 Amazon EMR 6.6 及更高版本中,使用 Log4j 1.x 和 Log4j 2.x 的应用程序将分别升级为使用 Log4j 1.2.17(或更高版本)和 Log4j 2.17.1(或更高版本),并且不需要使用提供的引导操作来缓解问题。 CVE

  • [托管扩展] Spark shuffle 数据托管扩展优化 ——对于 Amazon EMR 5.34.0 及更高版本以及 6.4.0 及更高EMR版本,托管扩展现在支持 Spark 洗牌数据(Spark 跨分区重新分配以执行特定操作的数据)。有关洗牌操作的更多信息,请参阅《亚马逊EMREMR管理指南》和《Spark 编程指南》EMR中的 “在亚马逊使用托管扩展”。

  • 从亚马逊 EMR 5.32.0 和 6.5.0 开始,Apache Spark 的动态执行器大小设置默认处于启用状态。要打开或关闭此功能,您可以使用 spark.yarn.heterogeneousExecutors.enabled 配置参数。

更改、增强和解决的问题
  • 对于使用EMR默认AMI选项且仅安装常见应用程序(例如 Apache Hadoop、Apache Spark 和 Apache Hive)的集群,亚马逊平均将集群启动时间EMR缩短多达 80 秒。

已知问题
  • 当亚马逊EMR版本 6.5.0、6.6.0 或 6.7.0 通过 Apache Spark 外壳读取 Apache Phoenix 表时,会发生这种情况NoSuchMethodError是因为亚马逊使用了错误的。EMR Hbase.compat.version亚马逊EMR版本 6.8.0 修复了这个问题。

  • 当您在EMR亚马逊 6.0、6.7.0 和 6.8.0 版本上将 DynamoDB 连接器与 Spark 配合使用时,即使输入拆分引用非空数据,所有从表中读取的内容都会返回空结果。这是因为 Spark 3.2.0 将 spark.hadoopRDD.ignoreEmptySplits 默认设置为 true。解决方法是将 spark.hadoopRDD.ignoreEmptySplits 显式设置为 false。亚马逊 6.9.0 EMR 版本修复了这个问题。

  • 在 Trino 长期运行的集群上,Amazon EMR 6.0 在 Trino jvm.config 中启用了垃圾收集日志参数,以便从垃圾收集日志中获得更好的见解。此更改将许多垃圾收集日志附加到 launcher.log (/var/log/trino/launcher.log) 文件中。如果您在 Amazon EMR 6.6.0 中运行 Trino 集群,则由于附加的日志,在集群运行了几天后,您可能会遇到节点磁盘空间耗尽的情况。

    此问题的解决方法是在为 Amazon 6.0 创建或克隆集群时,将以下脚本作为 Bootstrap 操作运行,以禁用 jvm.config 中的垃圾收集日志参数。EMR

    #!/bin/bash set -ex PRESTO_PUPPET_DIR='/var/aws/emr/bigtop-deploy/puppet/modules/trino' sudo bash -c "sed -i '/-Xlog/d' ${PRESTO_PUPPET_DIR}/templates/jvm.config"
  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

  • 在 Amazon 5.36.0 和 6.6.0 到 6.9.0 EMR 版本中,由于 Log4 SecretAgent j2 属性中的文件名模式配置不正确,RecordServer服务组件可能会丢失日志数据。错误的配置导致组件每天只生成一个日志文件。当应用轮换策略时,它会重写现有文件,而不是按预期生成新的日志文件。应变方法是使用引导操作每小时生成一次日志文件,并在文件名中附加一个自动增量的整数来处理轮换。

    对于 Amazon EMR 6.0 到 6.9.0 版本,请在启动集群时使用以下引导操作。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-6x/replace-puppet.sh,Args=[]"

    对于 Amazon EMR 5.36.0,请在启动集群时使用以下引导操作。

    ‑‑bootstrap‑actions "Path=s3://emr-data-access-control-us-east-1/customer-bootstrap-actions/log-rotation-emr-5x/replace-puppet.sh,Args=[]"

发行版 5.35.0

这是亚马逊 5.35.0 EMR 版本的发行说明。

以下发行说明包含有关亚马逊 5.35.0 EMR 版本的信息。更改与 5.34.0 有关。

首次发布日期: 2022 年 3 月 30 日

新功能
  • 使用 Log4j 1.x 和 Log4j 2.x 的亚马逊EMR版本 5.35 应用程序已分别升级为使用 Log4j 1.2.17(或更高版本)和 Log4j 2.17.1(或更高版本),并且不需要使用引导操作来缓解先前版本中的问题。CVE请参阅 缓解方法 CVE -2021-44228

更改、增强和解决的问题

Flink 更改
更改类型 描述
升级
  • 将 Flink 版本更新到 1.14.2。

  • log4j 升级到 2.17.1。

Hadoop 更改
更改类型 描述
自 5.34.0 起的 Hadoop 开源向后移植 EMR
  • YARN-10438: containerId 在 C lientRMService #中处理空值 () getContainerReport

  • YARN-7266:时间轴服务器事件处理程序线程已锁定

  • YARN-10438:如果 RollingLevelDb 文件损坏或丢失,则无法启动 ATS 1.5

  • HADOOP-13500:同步配置属性对象的小版本

  • YARN-10651:在 in 中 CapacityScheduler 坠毁。NPE AbstractYarnScheduler updateNodeResource()

  • HDFS-12221:替换中的 xerces XmlEditsVisitor

  • HDFS-16410:解析中的 X ml 不安全 OfflineEditsXmlLoader

Hadoop 更改和修复
  • 中KMS使用的 Tomcat,HttpFS 已升级到 8.5.75

  • 在 FileSystemOptimizedCommitter V2 中,成功标记写在创建提交者时定义的 commitJob 输出路径中。由于任务级别 commitJob 的输出路径可能不同,因此已将路径更正为使用清单文件中定义的路径。对于 Hive 作业,这会导致在执行诸如动态分区或UNIONALL之类的操作时正确写入成功标记。

Hive 更改
更改类型 描述
Hive 已升级到开源版本 2.3.9,包括这些修复 JIRA
  • HIVE-17155: HiveConf .java 中的 findConfFile () 在 conf 路径中存在一些问题

  • HIVE-24797:在解析 Avro 架构时禁用验证默认值

  • HIVE-21563:通过禁用 Once 来提高 Table# 性能 getEmptyTable registerAllFunctions

  • HIVE-18147:使用 java.net 时,测试可能会失败。 BindException: 地址已在使用中

  • HIVE-24608:在 Hive 2.3.x 的客户端中切换回 get_table HMS

  • HIVE-211200:矢量化——日期列抛出 java.lang。 UnsupportedOperationException 用于实木复合地板

  • HIVE-19228:移除 commons-httpclient 3.x 用法

自 5.34.0 起的 Hive 开源向后移植 EMR
  • HIVE-19990:在连接条件下使用间隔文字进行查询失败

  • HIVE-25824:将 branch-2.3 升级到 log4j 2.17.0

  • TEZ-4062:任务完成后应中止推测尝试调度

  • TEZ-4108: NullPointerException 在投机执行期间竞赛条件

  • TEZ-3918:设置 tez.task.log.level 不起作用

Hive 升级和修复
  • 将 Log4j 版本升级到 2.17.1

  • 将ORC版本升级到 1.4.3

  • 修复了由于处罚线程而导致的死锁 ShuffleScheduler

新功能
  • 添加了在 AM 日志中打印 Hive 查询的功能 默认情况下,将禁用该功能。标记/配置: tez.am.emr.print.hive.query.in.log。状态(默认):FALSE。

Oozie 更改
更改类型 描述
Oozie 自 5.34.0 起的开源向后移植 EMR
  • OOZIE-3652:Oozie 启动器应在出现目录列表时重试目录列表 NoSuchFileException

Pig 更改
更改类型 描述
升级
  • log4j 升级到 1.2.17。

已知问题
  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

发行版 5.34.0

以下发行说明包含有关亚马逊 5.34.0 EMR 版本的信息。更改与 5.33.1 有关。

首次发布日期:2022 年 1 月 20 日

发布更新日期:2022 年 3 月 21 日

新功能
  • [托管扩展] Spark shuffle 数据托管扩展优化 ——对于 Amazon EMR 5.34.0 及更高版本以及 6.4.0 及更高EMR版本,托管扩展现在支持 Spark 洗牌数据(Spark 跨分区重新分配以执行特定操作的数据)。有关洗牌操作的更多信息,请参阅《亚马逊EMREMR管理指南》和《Spark 编程指南》EMR中的 “在亚马逊使用托管扩展”。

  • [Hudi] 简化了 Hudi 配置的改进。预设情况下禁用乐观并发控制。

更改、增强和解决的问题
  • 此版本旨在修复 Amazon EMR Scaling 无法成功扩展/缩小集群或导致应用程序故障时出现的问题。

  • 以前,在多主集群上手动重启资源管理器会导致 Amaz EMR on 集群上的守护程序(例如 Zookeeper)在 Zookeeper znode 文件中重新加载所有先前已停用或丢失的节点。在某些情况下,这会导致超出默认限制。Amazon EMR 现已从 Zookeeper 文件中删除已停用或丢失超过一小时的节点记录,并且内部限制也已提高。

  • 修复了 Amaz EMR on 集群上守护程序运行状况检查活动(例如收集YARN节点状态和HDFS节点状态)时,对利用率很高的大型集群的扩展请求失败的问题。之所以发生这种情况,是因为集群上的守护程序无法将节点的运行状况数据传送到内部 Ama EMR zon 组件。

  • 改进了EMR集群上的守护程序,可在重复使用 IP 地址时正确跟踪节点状态,从而提高扩展操作期间的可靠性。

  • SPARK-29683。修复了集群缩减期间出现任务失败的问题,因为 Spark 假定所有可用节点都被拒绝列出。

  • YARN-9011。修复了集群尝试向上或向下扩展时,由于YARN停用过程中的争用条件而导致任务失败的问题。

  • 通过确保 Amaz EMR on 集群上守护程序和 YARN /之间的节点状态始终保持一致,修复了集群扩展期间步骤或任务失败的问题。HDFS

  • 修复了启用了 Kerberos 身份验证的 Amazon 集群的EMR集群操作(例如缩减和步骤提交)失败的问题。这是因为 Amaz EMR on 集群上守护程序没有续订 Kerberos 票证,而要与主节点上YARN运行的 HDFS /进行安全通信,则需要续订 Kerberos 票证。

  • Zeppelin 已升级到版本 0.10.0。

  • Livy 修复 - 已升级到 0.7.1

  • Spark 性能改进-在 5.34.0 中重写某些 Spark 配置值时,异构执行器将被禁用。EMR

  • 默认情况下HDFS,Web 和 HTTPFS 服务器处于禁用状态。您可以HDFS使用 Hadoop 配置重新启用 Web。dfs.webhdfs.enabledHTTPFS 服务器可以通过使用 sudo systemctl start hadoop-httpfs 启动。

已知问题
  • 与 Livy 用户模仿一起使用的 Amazon N EMR otebooks 功能不起作用,因为 HTTPFS 在默认情况下处于禁用状态。在这种情况下,EMR笔记本无法连接到启用了 Livy 模拟的集群。解决方法是在使用将EMR笔记本连接到集群之前启动 HTTPFS 服务器。sudo systemctl start hadoop-httpfs

  • Hue 查询在 Amazon EMR 6.4.0 中不起作用,因为 Apache Hadoop httpFS 服务器默认处于禁用状态。要在亚马逊 EMR 6.4.0 上使用 Hue,请使用或使用sudo systemctl start hadoop-httpfs亚马逊步骤在亚马逊EMR主节点上手动启动 HTTPFS 服务器。EMR

  • 与 Livy 用户模仿一起使用的 Amazon N EMR otebooks 功能不起作用,因为 HTTPFS 在默认情况下处于禁用状态。在这种情况下,EMR笔记本无法连接到启用了 Livy 模拟的集群。解决方法是在使用将EMR笔记本连接到集群之前启动 HTTPFS 服务器。sudo systemctl start hadoop-httpfs

  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

发行版 6.5.0

以下发行说明包含 Amazon 6.5.0 EMR 版本的信息。更改与 6.4.0 有关。

首次发布日期:2022 年 1 月 20 日

发布更新日期:2022 年 3 月 21 日

新功能
  • [托管扩展] Spark shuffle 数据托管扩展优化 ——对于 Amazon EMR 5.34.0 及更高版本以及 6.4.0 及更高EMR版本,托管扩展现在支持 Spark 洗牌数据(Spark 跨分区重新分配以执行特定操作的数据)。有关洗牌操作的更多信息,请参阅《亚马逊EMREMR管理指南》和《Spark 编程指南》EMR中的 “在亚马逊使用托管扩展”。

  • 从亚马逊 EMR 5.32.0 和 6.5.0 开始,Apache Spark 的动态执行器大小设置默认处于启用状态。要打开或关闭此功能,您可以使用 spark.yarn.heterogeneousExecutors.enabled 配置参数。

  • 支持 Apache Iceberg 开放表格式,用于大型分析数据集。

  • 支持 ranger-trino-plugin 2.0.1-amzn-1

  • 支持 toree 0.5.0

更改、增强和解决的问题
  • 亚马逊 EMR 6.5 发行版现在支持 Apache Iceberg 0.12.0,并通过适用于 Apache Spark 的亚马逊 Runtime、适用于 Presto 的亚马逊 EMR Runtime 和 Apache Hive 的EMR亚马逊 Runtime 提供了运行时改进。EMR

  • Apache Iceberg 是一种适用于 Amazon S3 中大型数据集的开放表格式,它提供了对大型表、原子提交、并发写入和SQL兼容表演化的快速查询性能。在 EMR 6.5 版本中,你可以使用带有 Iceberg 表格格式的 Apache Spark 3.1.2。

  • Apache Hudi 0.9 增加了 Spark SQL DDL 和支援。DML这允许您仅SQL使用语句创建、更新插入 Hudi 表。Apache Hudi 0.9 还包括查询端和写入器端的性能改进。

  • Amazon EMR Runtime for Apache Hive 通过删除暂存操作期间的重命名操作提高了 Apache Hive 在 Amazon S3 上的性能,并提高了用于修复表的元数据仓检查 (MSCK) 命令的性能。

已知问题
  • 当亚马逊EMR版本 6.5.0、6.6.0 或 6.7.0 通过 Apache Spark 外壳读取 Apache Phoenix 表时,会发生这种情况NoSuchMethodError是因为亚马逊使用了错误的。EMR Hbase.compat.version亚马逊EMR版本 6.8.0 修复了这个问题。

  • 高可用性(HA)的 Hbase 捆绑集群无法使用默认卷大小和实例类型进行预置。此问题的变通解决方法是增加根卷大小。

  • 要将 Spark 操作与 Apache Oozie 一起使用,必须将以下配置添加到 Oozie workflow.xml 文件中。否则,Oozie 启动的 Spark 执行程序的类路径中EMRFS将缺少几个关键库,例如 Hadoop 和。

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

发行版 6.4.0

以下发行说明包含有关亚马逊 6.4.0 EMR 版本的信息。更改与 6.3.0 有关。

首次发布日期:2021 年 9 月 20 日

发布更新日期:2022 年 3 月 21 日

受支持的应用程序
  • Amazon SDK for Java 版本 1.12.31

  • CloudWatch 水槽版本 2.2.0

  • DynamoDB 连接器 4.16.0

  • EMRFS版本 2.47.0

  • 亚马逊 EMR Goodies 版本 3.2.0

  • 亚马逊 EMR Kinesis Connector 版本 3.5.0

  • 亚马逊EMR录音服务器版本 2.1.0

  • 亚马逊EMR脚本版本 2.5.0

  • Flink 1.13.1

  • Ganglia 3.7.2

  • Amazon Glue Hive Metastore 客户端版本 3.3.0

  • Hadoop 3.2.1-amzn-4

  • HBase版本 2.4.4-amzn-0

  • HBase-operator-tools 1.1.0

  • HCatalog版本 3.1.2-amzn-5

  • Hive 3.1.2-amzn-5

  • Hudi 0.8.0-amzn-0

  • Hue 4.9.0

  • Java JDK 版本 Corretto-8.302.08.1(版本 1.8.0_302-b08)

  • JupyterHub 版本 1.4.1

  • Livy 0.7.1-incubating

  • MXNet版本 1.8.0

  • Oozie 5.2.1

  • Phoenix 5.1.2

  • Pig 0.17.0

  • Presto 0.254.1-amzn-0

  • Trino 359

  • Apache RangerKMS(多主机透明加密)版本 2.0.0

  • ranger-plugins 2.0.1-amzn-0

  • ranger-s3-plugin 1.2.0

  • SageMaker Spark SDK 版本 1.4.1

  • Scala 版本 2.12.10(打开 JDK 64 位服务器虚拟机,Java 1.8.0_282)

  • Spark 3.1.2-amzn-0

  • spark-rapids 0.4.1

  • Sqoop 1.4.7

  • TensorFlow 版本 2.4.1

  • tez 0.9.2

  • Zeppelin 0.9.0

  • Zookeeper 3.5.7

  • 连接器和驱动程序:DynamoDB 连接器 4.16.0

新功能
  • [托管扩展] Spark shuffle 数据托管扩展优化 ——对于 Amazon EMR 5.34.0 及更高版本以及 6.4.0 及更高EMR版本,托管扩展现在支持 Spark 洗牌数据(Spark 跨分区重新分配以执行特定操作的数据)。有关洗牌操作的更多信息,请参阅《亚马逊EMREMR管理指南》和《Spark 编程指南》EMR中的 “在亚马逊使用托管扩展”。

  • 在支持 Apache Ranger 的EMR亚马逊集群上,你可以使用、和使用 Apache SQL Spark 在 Apache Hive 元数据仓表中插入数据或更新 Apache Hive 元数据仓表。INSERT INTO INSERT OVERWRITE ALTER TABLEALTERTABLE与 Spark 一起使用时SQL,分区位置必须是表位置的子目录。Amazon 目前EMR不支持在分区位置与表位置不同的分区中插入数据。

  • Presto SQL 已更名为 Trino。

  • Hive:SELECT获取到LIMIT子句中提到的记录数后,立即停止查询执行,从而加快带LIMIT子句的简单查询的执行速度。简单SELECT查询是指没有 BY/b GROUP y 子句ORDER的查询或没有 reducer 阶段的查询。例如,SELECT * from <TABLE> WHERE <Condition> LIMIT <Number>

Hudi 并发控制
  • Hudi 现在支持 Optimistic Concurrency Control (OCC),它可以与写入操作(如UPSERT和)一起使用,INSERT以允许多个写入器对同一 Hudi 表进行更改。这是文件级的OCC,因此,如果任意两个提交(或写入者)的更改不冲突,则可以写入同一个表。有关更多信息,请参阅 Hadi 并发性控制

  • 亚马逊EMR集群安装了 Zookeeper,可以将其用作锁定提供程序。OCC为了便于使用此功能,Amazon EMR 集群已预先配置了以下属性:

    hoodie.write.lock.provider=org.apache.hudi.client.transaction.lock.ZookeeperBasedLockProvider hoodie.write.lock.zookeeper.url=<EMR Zookeeper URL> hoodie.write.lock.zookeeper.port=<EMR Zookeeper Port> hoodie.write.lock.zookeeper.base_path=/hudi

    要启用OCC,您需要使用其 Hudi 任务选项或使用 Amazon 配置在集群级别配置以下属性:EMRAPI

    hoodie.write.concurrency.mode=optimistic_concurrency_control hoodie.cleaner.policy.failed.writes=LAZY (Performs cleaning of failed writes lazily instead of inline with every write) hoodie.write.lock.zookeeper.lock_key=<Key to uniquely identify the Hudi table> (Table Name is a good option)
Hudi 监控:亚马逊 CloudWatch 集成以报告 Hudi 指标
  • 亚马逊EMR支持向亚马逊 CloudWatch发布 Hudi 指标。通过设置以下所需配置来启用:

    hoodie.metrics.on=true hoodie.metrics.reporter.type=CLOUDWATCH
  • 以下是您可以更改的可选 Hudi 配置:

    设置 描述

    hoodie.metrics.cloudwatch.report.period.seconds

    向 Amazon 报告指标的频率(以秒为单位) CloudWatch

    默认值为 60s,这对于亚马逊提供的默认一分钟分辨率来说没问题 CloudWatch

    hoodie.metrics.cloudwatch.metric.prefix

    要添加到每个指标名称的前缀

    默认值为空(无前缀)

    hoodie.metrics.cloudwatch.namespace

    发布指标时使用的 Amazon CloudWatch 命名空间

    默认值为 Hudi

    hoodie.metrics.cloudwatch maxDatumsPer请求

    向 Amazon 发出的单次请求中包含的最大数据数量 CloudWatch

    默认值为 20,这与亚马逊的 CloudWatch 默认值相同

Amazon EMR Hudi 配置支持和改进
  • 客户现在可以利用EMR配置API和重新配置功能在集群级别配置 Hudi 配置。与 Spark、Hive 等其他应用程序一样,引入了一种新的基于文件的配置支持 via /etc/hudi/conf/hudi-defaults.conf。EMR配置一些默认值以改善用户体验:

    — 已配置hoodie.datasource.hive_sync.jdbcurl 为群集 Hive 服务器URL,不再需要指定。这在在 Spark 集群模式下运行作业时特别有用,您以前必须在此模式下指定 A EMR mazon 主 IP。

    — HBase 特定配置,这对于在 Hudi 中使用HBase索引很有用。

    — Zookeeper 锁定提供程序的特定配置,如并发控制下所述,这使得使用乐观并发控制 () 变得更加容易。OCC

  • 还引入了其他更改,以减少需要通过的配置数量,并在可能的情况下自动推断:

    — 该partitionBy 关键字可用于指定分区列。

    — 启用 Hive Sync 时,不再强制通过HIVE_TABLE_OPT_KEY, HIVE_PARTITION_FIELDS_OPT_KEY, HIVE_PARTITION_EXTRACTOR_CLASS_OPT_KEY。这些值可以根据 Hudi 表名称和分区字段推断出来。

    KEYGENERATOR_CLASS_OPT_KEY不强制通过,可以从更简单的SimpleKeyGeneratorComplexKeyGenerator情况下推断。

Hudi 注意事项
  • Hudi 不支持在 Hive 中用于读取时合并 (MoR) 和 Bootstrap 表格中的矢量化执行。例如,当hive.vectorized.execution.enabled设置为 true 时,Hudi 实时表的count(*)失败。作为解决方法,您可以通过将hive.vectorized.execution.enabled设置为false禁用矢量化读入。

  • 多写作器支持与 Hudi 引导启动功能不兼容。

  • Flink Streamer 和 Flink SQL 是此版本中的实验性功能。建议不要在生产部署中使用这些功能。

更改、增强功能和解决的问题

此版本旨在修复 Amazon EMR Scaling 无法成功扩展/缩小集群或导致应用程序故障时出现的问题。

  • 以前,在多主集群上手动重启资源管理器会导致 Amaz EMR on 集群上的守护程序(例如 Zookeeper)在 Zookeeper znode 文件中重新加载所有先前已停用或丢失的节点。在某些情况下,这会导致超出默认限制。Amazon EMR 现已从 Zookeeper 文件中删除已停用或丢失超过一小时的节点记录,并且内部限制也已提高。

  • 修复了 Amaz EMR on 集群上守护程序运行状况检查活动(例如收集YARN节点状态和HDFS节点状态)时,对利用率很高的大型集群的扩展请求失败的问题。之所以发生这种情况,是因为集群上的守护程序无法将节点的运行状况数据传送到内部 Ama EMR zon 组件。

  • 改进了EMR集群上的守护程序,可在重复使用 IP 地址时正确跟踪节点状态,从而提高扩展操作期间的可靠性。

  • SPARK-29683。修复了集群缩减期间出现任务失败的问题,因为 Spark 假定所有可用节点都被拒绝列出。

  • YARN-9011。修复了集群尝试向上或向下扩展时,由于YARN停用过程中的争用条件而导致任务失败的问题。

  • 通过确保 Amaz EMR on 集群上守护程序和 YARN /之间的节点状态始终保持一致,修复了集群扩展期间步骤或任务失败的问题。HDFS

  • 修复了启用了 Kerberos 身份验证的 Amazon 集群的EMR集群操作(例如缩减和步骤提交)失败的问题。这是因为 Amaz EMR on 集群上守护程序没有续订 Kerberos 票证,而要与主节点上YARN运行的 HDFS /进行安全通信,则需要续订 Kerberos 票证。

  • 配置群集以修复 Apache T YARN imeline Server 版本 1 和 1.5 的性能问题

    Apache T YARN imeline Server 版本 1 和 1.5 可能会导致非常活跃的大型EMR集群出现性能问题yarn.resourcemanager.system-metrics-publisher.enabled=true,尤其是在使用 Amazon EMR 的默认设置时。开源YARN时间轴服务器 v2 解决了与时间YARN轴服务器可扩展性相关的性能问题。

    此问题的其他解决方法包括:

    • 配置 yarn.资源管理器。 system-metrics-publisheryarn-site.xml 中的.enabled=false。

    • 如下所述,在创建群集时启用此问题的修复程序。

    以下 Amazon EMR 版本包含针对此YARN时间轴服务器性能问题的修复程序。

    EMR5.30.2、5.31.1、5.32.1、5.33.1、5.34.x、6.0.1、6.1.1、6.2.1、6.3.1、6.3.1、6.3.1、6.4.x

    要在上述任何指定的 Amazon EMR 版本上启用修复,请在使用aws emr create-cluster命令参数传true入的配置JSON文件中将这些属性设置为--configurations file://./configurations.json。或者使用重新配置控制台 UI 启用修复程序。

    配置 .json 文件内容的示例:

    [ { "Classification": "yarn-site", "Properties": { "yarn.resourcemanager.system-metrics-publisher.timeline-server-v1.enable-batch": "true", "yarn.resourcemanager.system-metrics-publisher.enabled": "true" }, "Configurations": [] } ]
  • 默认情况下HDFS,Web 和 HTTPFS 服务器处于禁用状态。您可以HDFS使用 Hadoop 配置重新启用 Web。dfs.webhdfs.enabledHTTPFS 服务器可以通过使用 sudo systemctl start hadoop-httpfs 启动。

  • HTTPS现在,亚马逊 Linux 存储库已默认启用。如果您使用 Amazon S3 VPCE 策略来限制对特定存储桶的访问,则必须将新的 Amazon Linux 存储桶ARNarn:aws:s3:::amazonlinux-2-repos-$region/*添加到您的策略中($region替换为终端节点所在的区域)。有关更多信息,请在 Amazon 讨论论坛中查看此主题。公告:Amazon Linux 2 现在支持HTTPS在连接软件包存储库时使用

  • Hive:通过为最后一个作业启用暂存目录,可以提高写入查询性能。HDFS最终任务的临时数据是写入的,HDFS而不是 Amazon S3,而且由于数据是从HDFS最终表位置 (Amazon S3) 移动到最终表位置 (Amazon S3),而不是在 Amazon S3 设备之间移动,因此性能得到了改善。

  • Hive:使用 Glue 元存储分区修剪,查询编译时间最多可缩短 2.5 倍。

  • 默认情况下,当 Hive 将内置UDFs内容传递给 Hive Metastore 服务器时,只有内置内容的子集会传递给 Glue Metastore,因UDFs为 Glue 仅支持有限的表达式运算符。如果您设置hive.glue.partition.pruning.client=true,则所有分区修剪发生在客户端。如果您设置hive.glue.partition.pruning.server=true,则所有分区修剪发生在服务器端。

已知问题
  • Hue 查询在 Amazon EMR 6.4.0 中不起作用,因为 Apache Hadoop httpFS 服务器默认处于禁用状态。要在亚马逊 EMR 6.4.0 上使用 Hue,请使用或使用sudo systemctl start hadoop-httpfs亚马逊步骤在亚马逊EMR主节点上手动启动 HTTPFS 服务器。EMR

  • 与 Livy 用户模仿一起使用的 Amazon N EMR otebooks 功能不起作用,因为 HTTPFS 在默认情况下处于禁用状态。在这种情况下,EMR笔记本无法连接到启用了 Livy 模拟的集群。解决方法是在使用将EMR笔记本连接到集群之前启动 HTTPFS 服务器。sudo systemctl start hadoop-httpfs

  • 在亚马逊 6.4.0 EMR 版本中,Phoenix 不支持 Phoenix 连接器组件。

  • 要将 Spark 操作与 Apache Oozie 一起使用,必须将以下配置添加到 Oozie workflow.xml 文件中。否则,Oozie 启动的 Spark 执行程序的类路径中EMRFS将缺少几个关键库,例如 Hadoop 和。

    <spark-opts>--conf spark.yarn.populateHadoopClasspath=true</spark-opts>
  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

发行版 5.32.0

以下发行说明包含有关亚马逊 5.32.0 EMR 版本的信息。更改与 5.31.0 有关。

首次发布日期:2021 年 1 月 8 日

升级
  • 已将 Amazon Glue 连接器升级到1.14.0

  • 已将 Amazon SageMaker Spark 升级SDK到 1.4.1 版

  • 已升级 Amazon SDK for Java 到 1.11.890 版本

  • 升级后的 EMR DynamoDB 连接器版本 4.16.0

  • 已升级EMRFS到 2.45.0 版

  • 已将EMR日志分析指标升级到 1.18.0 版

  • 已将EMR MetricsAndEventsApiGateway 客户端升级到 1.5.0 版

  • 已将 R EMR ecord Server 升级到 1.8.0 版

  • 已EMR将 S3 Dist CP 升级到版本 2.17.0

  • 已将 S EMR ecret Agent 升级到 1.7.0 版

  • 已将 Flink 升级到版本 1.11.2

  • 已将 Hadoop 升级到版本 2.10.1-amzn-0

  • 已将 Hive 升级到版本 2.3.7-amzn-3

  • 已将 Hue 升级到版本 4.8.0

  • 已将 Mxnet 升级到版本 1.7.0

  • 已将 OpenCV 升级到版本 4.4.0

  • 已将 Presto 升级到版本 0.240.1-amzn-0

  • 已将 Spark 升级到版本 2.4.7-amzn-0

  • 已升级 TensorFlow 到 2.3.1 版

更改、增强功能和解决的问题
  • 此版本旨在修复 Amazon EMR Scaling 无法成功扩展/缩小集群或导致应用程序故障时出现的问题。

  • 修复了 Amaz EMR on 集群上守护程序运行状况检查活动(例如收集YARN节点状态和HDFS节点状态)时,对利用率很高的大型集群的扩展请求失败的问题。之所以发生这种情况,是因为集群上的守护程序无法将节点的运行状况数据传送到内部 Ama EMR zon 组件。

  • 改进了EMR集群上的守护程序,可在重复使用 IP 地址时正确跟踪节点状态,从而提高扩展操作期间的可靠性。

  • SPARK-29683。修复了集群缩减期间出现任务失败的问题,因为 Spark 假定所有可用节点都被拒绝列出。

  • YARN-9011。修复了集群尝试向上或向下扩展时,由于YARN停用过程中的争用条件而导致任务失败的问题。

  • 通过确保 Amaz EMR on 集群上守护程序和 YARN /之间的节点状态始终保持一致,修复了集群扩展期间步骤或任务失败的问题。HDFS

  • 修复了启用了 Kerberos 身份验证的 Amazon 集群的EMR集群操作(例如缩减和步骤提交)失败的问题。这是因为 Amaz EMR on 集群上守护程序没有续订 Kerberos 票证,而要与主节点上YARN运行的 HDFS /进行安全通信,则需要续订 Kerberos 票证。

  • 较新的Amazon EMR 版本通过降低亚马逊较旧AL2版本的 “最大打开文件数” 限制来解决这个问题EMR。亚马逊EMR发布的5.30.1、5.30.2、5.31.1、5.32.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本现在包含一个永久修复程序,其中包含一个具有更高的 “最大打开文件数” 设置的永久修复。

  • 升级了组件版本。

  • 有关组件版本的列表,请参阅本指南中的关于 Amazon EMR 版本

新功能
  • 从亚马逊 EMR 5.32.0 和 6.5.0 开始,Apache Spark 的动态执行器大小设置默认处于启用状态。要打开或关闭此功能,您可以使用 spark.yarn.heterogeneousExecutors.enabled 配置参数。

  • 实例元数据服务 (IMDS) V2 支持状态:Amazon EMR 5.23.1、5.27.1 和 5.32 或更高版本的组件用于所有调用。IMDSv2 IMDS对于应用程序代码中的IMDS调用,您可以同时使用IMDSv1和IMDSv2,或者将配置IMDS为仅IMDSv2用于提高安全性。对于其他 5.x EMR 版本,禁用IMDSv1会导致集群启动失败。

  • 从 Amazon EMR 5.32.0 开始,您可以启动与 Apache Ranger 原生集成的集群。Apache Ranger 是一个开源框架,可跨 Hadoop 平台启用、监控和管理全面的数据安全。有关更多信息,请参阅 Apache Ranger。通过原生集成,您可以自带Apache Ranger来在亚马逊上实施精细的数据访问控制。EMR请参阅亚马逊EMR发布指南中的将亚马逊EMR与 Apache Ranger 集成。

  • 亚马逊EMR版本 5.32.0 支持亚马EMR逊。EKS如需详细了解如何开始使用 EMR onEKS,请参阅 Amaz EMR on 在做什么EKS

  • 亚马逊EMR版本 5.32.0 支持亚马逊 EMR Studio(预览版)。有关 EMR Studio 入门的更多详细信息,请参阅 Amazon EMR Studio(预览版)

  • 限定范围的托管策略:为了与 Amazon 最佳实践保持一致,Amazon 引入EMR了 v2 EMR 范围的默认托管策略,以取代即将弃用的策略。参见 Amazon EMR 托管政策

已知问题
  • 对于 Amazon EMR 6.3.0 和 6.2.0 私有子网集群,您无法访问 Ganglia 网页用户界面。您将收到“access denied (403)”错误。其他网络UIs,例如 Spark、Hue JupyterHub、Zeppelin、Livy 和 Tez,都正常运行。公有子网集群上的 Ganglia Web UI 访问也正常工作。要解决该问题,请在具有 sudo systemctl restart httpd 的主节点上重新启动 httpd 服务。此问题已在 Amazon EMR 6.4.0 中修复。

  • 降低旧版本的 “最大打开文件数” 限制 AL2 [在新版本中已修复]。亚马逊EMR版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0 和 emr-6.2.0 基于较旧版本的 Linux ofAmazon 2 ()AL2,当使用默认版本创建亚马逊集群时,“最大打开文件数” 的用户限制较低。EMR AMI亚马逊EMR发布的版本为5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本,包括具有更高的 “最大打开文件数” 设置的永久修复。如果使用打开文件数限制较低的发行版,会在提交 Spark 任务时导致“Too many open files”(打开的文件过多)错误。在受影响的版本中,亚马逊EMR默AMI认 “最大打开文件数” 的ulimit设置为4096,低于Linux 2中的65536个文件限制。 latestAmazon AMISpark 驱动程序和执行程序尝试打开超过 4096 个文件时,“打开的最大文件数”的较低 ulimit 设置会导致 Spark 任务失败。为了解决这个问题,Amazon EMR 提供了一个引导操作 (BA) 脚本,可以在创建集群时调整ulimit设置。

    如果您使用的是无法永久修复此问题的旧EMR版 Amazon,则可以使用以下解决方法将实例控制器 ulimit 明确设置为最多 65536 个文件。

    从命令行显式设置 ulimit
    1. 编辑 /etc/systemd/system/instance-controller.service,将以下参数添加到 Service (服务) 部分。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 重启 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    使用引导操作 (BA) 设置 ulimit

    您还可以在创建集群时使用引导操作(BA)脚本将实例控制器 ulimit 配置为 65536 个文件。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    EMR运行 Amazon Linux 或 Amazon Linux 2 Amazon 机器映像 (AMIs) 的集群使用默认 Amazon Linux 行为,不会自动下载和安装需要重启的重要关键内核更新。这与运行默认 Amazon Linux 的其他亚马逊EC2实例的行为相同AMI。如果在 Amazon EMR 版本发布后需要重启的新 Amazon Linux 软件CUDA更新(例如内核和更新)可用,则默认运行的EMR集群实例AMI不会自动下载和安装这些更新。NVIDIA要获取内核更新,您可以自定义您的亚马逊,EMRAMI使其使用最新的亚马逊 Linux AMI

  • 该 GovCloud 区域目前不支持控制台支持创建指定 Amazon Ranger 集成选项的安全配置。可以使用来完成安全配置CLI。请参阅Amazon EMR 管理指南》中的创建EMR安全配置

  • 在使用 Amazon EMR 5.31.0 AtRestEncryption 或 5.32.0 的集群上启用或HDFS加密时,Hive 查询会导致以下运行时异常。

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

发行版 6.2.0

以下发行说明包含有关亚马逊 6.2.0 EMR 版本的信息。更改与 6.1.0 有关。

首次发布日期:2020 年 12 月 9 日

上次更新日期:2021 年 10 月 4 日

受支持的应用程序
  • Amazon SDK for Java 版本 1.11.828

  • emr-record-server 版本 1.7.0

  • Flink 1.11.2

  • Ganglia 3.7.2

  • Hadoop 3.2.1-amzn-1

  • HBase版本 2.2.6-amzn-0

  • HBase-operator-tools 1.0.0

  • HCatalog版本 3.1.2-amzn-0

  • Hive 3.1.2-amzn-3

  • Hudi 0.6.0-amzn-1

  • Hue 4.8.0

  • JupyterHub 版本 1.1.0

  • Livy 0.7.0

  • MXNet版本 1.7.0

  • Oozie 5.2.0

  • Phoenix 5.0.0

  • Pig 0.17.0

  • Presto 0.238.3-amzn-1

  • Presto SQL 版本 343

  • Spark 3.0.1-amzn-0

  • spark-rapids 0.2.0

  • TensorFlow 版本 2.3.1

  • Zeppelin 0.9.0-preview1

  • Zookeeper 3.4.14

  • 连接器和驱动程序:DynamoDB 连接器 4.16.0

新功能
  • HBase: 删除了提交阶段的重命名并添加了持续HFile跟踪。请参阅《Amazon EMR 发布指南》中的持续HFile跟踪

  • HBase: 向后移植创建一个在压缩时强制缓存块的配置

  • PrestoDB:改进了动态分区修剪。基于规则的连接重新排序对未分区数据运行。

  • 限定范围的托管策略:为了与 Amazon 最佳实践保持一致,Amazon 引入EMR了 v2 EMR 范围的默认托管策略,以取代即将弃用的策略。参见 Amazon EMR 托管政策

  • 实例元数据服务 (IMDS) V2 支持状态:对于 Amazon EMR 6.2 或更高版本,Amazon EMR 组件IMDSv2用于所有IMDS调用。对于应用程序代码中的IMDS调用,您可以同时使用IMDSv1和IMDSv2,或者将配置IMDS为仅IMDSv2用于提高安全性。如果您IMDSv1在早期的 Amazon EMR 6.x 版本中禁用,则会导致集群启动失败。

更改、增强功能和解决的问题
  • 此版本旨在修复 Amazon EMR Scaling 无法成功扩展/缩小集群或导致应用程序故障时出现的问题。

  • 修复了 Amaz EMR on 集群上守护程序运行状况检查活动(例如收集YARN节点状态和HDFS节点状态)时,对利用率很高的大型集群的扩展请求失败的问题。之所以发生这种情况,是因为集群上的守护程序无法将节点的运行状况数据传送到内部 Ama EMR zon 组件。

  • 改进了EMR集群上的守护程序,可在重复使用 IP 地址时正确跟踪节点状态,从而提高扩展操作期间的可靠性。

  • SPARK-29683。修复了集群缩减期间出现任务失败的问题,因为 Spark 假定所有可用节点都被拒绝列出。

  • YARN-9011。修复了集群尝试向上或向下扩展时,由于YARN停用过程中的争用条件而导致任务失败的问题。

  • 通过确保 Amaz EMR on 集群上守护程序和 YARN /之间的节点状态始终保持一致,修复了集群扩展期间步骤或任务失败的问题。HDFS

  • 修复了启用了 Kerberos 身份验证的 Amazon 集群的EMR集群操作(例如缩减和步骤提交)失败的问题。这是因为 Amaz EMR on 集群上守护程序没有续订 Kerberos 票证,而要与主节点上YARN运行的 HDFS /进行安全通信,则需要续订 Kerberos 票证。

  • 较新的Amazon EMR 版本通过降低亚马逊较旧AL2版本的 “最大打开文件数” 限制来解决这个问题EMR。亚马逊EMR发布的5.30.1、5.30.2、5.31.1、5.32.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本现在包含一个永久修复程序,其中包含一个具有更高的 “最大打开文件数” 设置的永久修复。

  • Spark:改进了 Spark 运行时的性能。

已知问题
  • Amazon EMR 6.2 在 the /etc/cron.d/libinstance-controller-java file in EMR 6.2.0. Permissions on the file are 645 (-rw-r--r-x), when they should be 644 (-rw-r--r--). As a result, Amazon EMR version 6.2 does not log instance-state logs, and the /emr/instance-logs 目录为空时设置了错误的权限。此问题已在 Amazon EMR 6.3.0 及更高版本中修复。

    要解决此问题,请在集群启动时将以下脚本作为引导操作运行。

    #!/bin/bash sudo chmod 644 /etc/cron.d/libinstance-controller-java
  • 对于 Amazon EMR 6.2.0 和 6.3.0 私有子网集群,您无法访问 Ganglia 网页用户界面。您将收到“access denied (403)”错误。其他网络UIs,例如 Spark、Hue JupyterHub、Zeppelin、Livy 和 Tez,都正常运行。公有子网集群上的 Ganglia Web UI 访问也正常工作。要解决该问题,请在具有 sudo systemctl restart httpd 的主节点上重新启动 httpd 服务。此问题已在 Amazon EMR 6.4.0 中修复。

  • 亚马逊 EMR 6.2.0 中存在一个问题,即 httpd 持续失败,导致 Ganglia 不可用。您会收到“cannot connect to the server(无法连接到服务器)”错误。要修复已在运行但存在此问题的群集,SSH请访问群集主节点,然后将该行Listen 80添加到httpd.conf位于的文件中/etc/httpd/conf/httpd.conf。此问题已在 Amazon EMR 6.3.0 中修复。

  • HTTPD使用安全配置时,在 EMR 6.2.0 集群上失败。因此,Ganglia Web 应用程序用户界面不可用。要访问 Ganglia Web 应用程序用户界面,请将 Listen 80 添加到集群主节点上的 /etc/httpd/conf/httpd.conf 文件中。有关连接到集群的信息,请参阅使用连接到主节点SSH

    EMR当您使用安全配置时,笔记本也无法与 EMR 6.2.0 集群建立连接。笔记本将无法列出内核和提交 Spark 任务。我们建议您EMR改用其他版本的 Amazon 的EMR笔记本电脑。

  • 降低旧版本的 “最大打开文件数” 限制 AL2 [在新版本中已修复]。亚马逊EMR版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0 和 emr-6.2.0 基于较旧版本的 Linux ofAmazon 2 ()AL2,当使用默认版本创建亚马逊集群时,“最大打开文件数” 的用户限制较低。EMR AMI亚马逊EMR发布的版本为5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本,包括具有更高的 “最大打开文件数” 设置的永久修复。如果使用打开文件数限制较低的发行版,会在提交 Spark 任务时导致“Too many open files”(打开的文件过多)错误。在受影响的版本中,亚马逊EMR默AMI认 “最大打开文件数” 的ulimit设置为4096,低于Linux 2中的65536个文件限制。 latestAmazon AMISpark 驱动程序和执行程序尝试打开超过 4096 个文件时,“打开的最大文件数”的较低 ulimit 设置会导致 Spark 任务失败。为了解决这个问题,Amazon EMR 提供了一个引导操作 (BA) 脚本,可以在创建集群时调整ulimit设置。

    如果您使用的是无法永久修复此问题的旧EMR版 Amazon,则可以使用以下解决方法将实例控制器 ulimit 明确设置为最多 65536 个文件。

    从命令行显式设置 ulimit
    1. 编辑 /etc/systemd/system/instance-controller.service,将以下参数添加到 Service (服务) 部分。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 重启 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    使用引导操作 (BA) 设置 ulimit

    您还可以在创建集群时使用引导操作(BA)脚本将实例控制器 ulimit 配置为 65536 个文件。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon EMR 6.1.0 和 6.2.0 包含一个性能问题,可能会严重影响 Hudi 的所有插入、更新和删除操作。如果您计划在亚马逊 EMR 6.1.0 或 6.2.0 中使用 Hudi,则应联系 Amazon 支持人员获取已修补的 Hudi。RPM

  • 重要

    EMR运行 Amazon Linux 或 Amazon Linux 2 Amazon 机器映像 (AMIs) 的集群使用默认 Amazon Linux 行为,不会自动下载和安装需要重启的重要关键内核更新。这与运行默认 Amazon Linux 的其他亚马逊EC2实例的行为相同AMI。如果在 Amazon EMR 版本发布后需要重启的新 Amazon Linux 软件CUDA更新(例如内核和更新)可用,则默认运行的EMR集群实例AMI不会自动下载和安装这些更新。NVIDIA要获取内核更新,您可以自定义您的亚马逊,EMRAMI使其使用最新的亚马逊 Linux AMI

  • 亚马逊 EMR 6.2.0 Maven 工件尚未发布。它们将与 Amazon 的未来版本一起发布EMR。

  • 使用 HBase storefile 系统表进行持续HFile跟踪不支持HBase区域复制功能。有关HBase区域复制的更多信息,请参阅时间轴一致的高可用读取

  • 亚马逊 EMR 6.x 和 EMR 5.x Hive 存储桶版本的区别

    EMR5.x 使用 OOS Apache Hive 2,而在 EMR 6.x 中使用 OOS Apache Hive 3。开源 Hive2 使用分桶版本 1,而开源 Hive3 使用分桶版本 2。Hive 2 (EMR5.x) 和 Hive 3 (EMR6.x) 之间的这种存储桶版本差异意味着 Hive 存储分区哈希功能不同。请参见以下示例。

    下表分别是在 EMR 6.x 和 EMR 5.x 中创建的示例。

    -- Using following LOCATION in EMR 6.x CREATE TABLE test_bucketing (id INT, desc STRING) PARTITIONED BY (day STRING) CLUSTERED BY(id) INTO 128 BUCKETS LOCATION 's3://your-own-s3-bucket/emr-6-bucketing/'; -- Using following LOCATION in EMR 5.x LOCATION 's3://your-own-s3-bucket/emr-5-bucketing/';

    在 EMR 6.x 和 EMR 5.x 中插入相同的数据。

    INSERT INTO test_bucketing PARTITION (day='01') VALUES(66, 'some_data'); INSERT INTO test_bucketing PARTITION (day='01') VALUES(200, 'some_data');

    检查 S3 位置会显示存储桶文件名不同,因为哈希函数在 EMR 6.x(Hive 3)和 EMR 5.x(Hive 2)之间有所不同。

    [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-6-bucketing/day=01/ 2020-10-21 20:35:16 13 000025_0 2020-10-21 20:35:22 14 000121_0 [hadoop@ip-10-0-0-122 ~]$ aws s3 ls s3://your-own-s3-bucket/emr-5-bucketing/day=01/ 2020-10-21 20:32:07 13 000066_0 2020-10-21 20:32:51 14 000072_0

    您还可以通过在 EMR 6.x 的 Hive CLI 中运行以下命令来查看版本差异。请注意,它将返回分桶版本 2。

    hive> DESCRIBE FORMATTED test_bucketing; ... Table Parameters: bucketing_version 2 ...
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

发行版 5.31.0

以下发行说明包含有关亚马逊 5.31.0 EMR 版本的信息。更改与 5.30.1 有关。

首次发布日期:2020 年 10 月 9 日

上次更新日期:2020 年 10 月 15 日

升级
  • 已将 Amazon Glue 连接器升级到版本 1.13.0

  • 已将 Amazon SageMaker Spark 升级SDK到 1.4.0 版

  • 已将 Amazon Kinesis 连接器升级到版本 3.5.9

  • 已升级 Amazon SDK for Java 到 1.11.852 版本

  • 已将 Bigtop-tomcat 升级到版本 8.5.56

  • 已EMR将 FS 升级到 2.43.0 版

  • 已将EMR MetricsAndEventsApiGateway 客户端升级到 1.4.0 版

  • 已EMR将 S3 Dist CP 升级到版本 2.15.0

  • 已EMR将 S3 Select 升级到 1.6.0 版

  • 已将 Flink 升级到版本 1.11.0

  • 已将 Hadoop 升级到版本 2.10.0

  • 已将 Hive 升级到版本 2.3.7

  • 已将 Hudi 升级到版本 0.6.0

  • 已将 Hue 升级到版本 4.7.1

  • 已升级 JupyterHub 到 1.1.0 版

  • 已将 Mxnet 升级到版本 1.6.0

  • 已将 OpenCV 升级到版本 4.3.0

  • 已将 Presto 升级到版本 0.238.3

  • 已升级 TensorFlow 到 2.1.0 版

更改、增强功能和解决的问题
  • 此版本旨在修复 Amazon EMR Scaling 无法成功扩展/缩小集群或导致应用程序故障时出现的问题。

  • 修复了 Amaz EMR on 集群上守护程序运行状况检查活动(例如收集YARN节点状态和HDFS节点状态)时,对利用率很高的大型集群的扩展请求失败的问题。之所以发生这种情况,是因为集群上的守护程序无法将节点的运行状况数据传送到内部 Ama EMR zon 组件。

  • 改进了EMR集群上的守护程序,可在重复使用 IP 地址时正确跟踪节点状态,从而提高扩展操作期间的可靠性。

  • SPARK-29683。修复了集群缩减期间出现任务失败的问题,因为 Spark 假定所有可用节点都被拒绝列出。

  • YARN-9011。修复了集群尝试向上或向下扩展时,由于YARN停用过程中的争用条件而导致任务失败的问题。

  • 通过确保 Amaz EMR on 集群上守护程序和 YARN /之间的节点状态始终保持一致,修复了集群扩展期间步骤或任务失败的问题。HDFS

  • 修复了启用了 Kerberos 身份验证的 Amazon 集群的EMR集群操作(例如缩减和步骤提交)失败的问题。这是因为 Amaz EMR on 集群上守护程序没有续订 Kerberos 票证,而要与主节点上YARN运行的 HDFS /进行安全通信,则需要续订 Kerberos 票证。

  • 较新的Amazon EMR 版本通过降低亚马逊较旧AL2版本的 “最大打开文件数” 限制来解决这个问题EMR。亚马逊EMR发布的5.30.1、5.30.2、5.31.1、5.32.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本现在包含一个永久修复程序,其中包含一个具有更高的 “最大打开文件数” 设置的永久修复。

  • 亚马逊 5.31.0 及更高EMR版本支持 Hive 列统计信息

  • 升级了组件版本。

  • EMRFS亚马逊 EMR 5.31.0 中的 S3EC V2 Support。在 S3 Java SDK 版本 1.11.837 及更高版本中,引入了加密客户端版本 2 (S3EC V2),其中包含各种安全增强功能。有关更多信息,请参阅下列内容:

    加密客户端 V1 仍可在中使用,SDK以实现向后兼容。

新功能
  • 降低旧版本的 “最大打开文件数” 限制 AL2 [在新版本中已修复]。亚马逊EMR版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0 和 emr-6.2.0 基于较旧版本的 Linux ofAmazon 2 ()AL2,当使用默认版本创建亚马逊集群时,“最大打开文件数” 的用户限制较低。EMR AMI亚马逊EMR发布的版本为5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本,包括具有更高的 “最大打开文件数” 设置的永久修复。如果使用打开文件数限制较低的发行版,会在提交 Spark 任务时导致“Too many open files”(打开的文件过多)错误。在受影响的版本中,亚马逊EMR默AMI认 “最大打开文件数” 的ulimit设置为4096,低于Linux 2中的65536个文件限制。 latestAmazon AMISpark 驱动程序和执行程序尝试打开超过 4096 个文件时,“打开的最大文件数”的较低 ulimit 设置会导致 Spark 任务失败。为了解决这个问题,Amazon EMR 提供了一个引导操作 (BA) 脚本,可以在创建集群时调整ulimit设置。

    如果您使用的是无法永久修复此问题的旧EMR版 Amazon,则可以使用以下解决方法将实例控制器 ulimit 明确设置为最多 65536 个文件。

    从命令行显式设置 ulimit
    1. 编辑 /etc/systemd/system/instance-controller.service,将以下参数添加到 Service (服务) 部分。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 重启 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    使用引导操作 (BA) 设置 ulimit

    您还可以在创建集群时使用引导操作(BA)脚本将实例控制器 ulimit 配置为 65536 个文件。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 使用 Amazon EMR 5.31.0,您可以启动与 Lake Formation 集成的集群。这种集成为 Glue 数据目录中的数据库和表提供了精细的列级数据筛选。 Amazon 它还支持从企业身份系统对EMR笔记本或 Apache Zeppelin 进行联合单点登录。有关更多信息,请参阅《亚马逊EMR管理指南》 Amazon Lake Formation中的亚马逊EMR与集成

    Amazon EMR with Lake Formation 目前在 16 个 Amazon 地区上市:美国东部(俄亥俄州和弗吉尼亚北部)、美国西部(加利福尼亚北部和俄勒冈州)、亚太地区(孟买、首尔、新加坡、悉尼和东京)、加拿大(中部)、欧洲(法兰克福、爱尔兰、伦敦、巴黎和斯德哥尔摩)、南美洲(圣保罗)。

已知问题
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

  • 在使用 Amazon EMR 5.31.0 AtRestEncryption 或 5.32.0 的集群上启用或HDFS加密时,Hive 查询会导致以下运行时异常。

    TaskAttempt 3 failed, info=[Error: Error while running task ( failure ) : attempt_1604112648850_0001_1_01_000000_3:java.lang.RuntimeException: java.lang.RuntimeException: Hive Runtime Error while closing operators: java.io.IOException: java.util.ServiceConfigurationError: org.apache.hadoop.security.token.TokenIdentifier: Provider org.apache.hadoop.hbase.security.token.AuthenticationTokenIdentifier not found
  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

发行版 6.1.0

以下发行说明包含有关亚马逊 6.1.0 EMR 版本的信息。更改与 6.0.0 有关。

首次发布日期:2020 年 9 月 4 日

上次更新日期:2020 年 10 月 15 日

受支持的应用程序
  • Amazon SDK for Java 版本 1.11.828

  • Flink 1.11.0

  • Ganglia 3.7.2

  • Hadoop 3.2.1-amzn-1

  • HBase版本 2.2.5

  • HBase-operator-tools 1.0.0

  • HCatalog版本 3.1.2-amzn-0

  • Hive 3.1.2-amzn-1

  • Hudi 0.5.2-incubating

  • Hue 4.7.1

  • JupyterHub 版本 1.1.0

  • Livy 0.7.0

  • MXNet版本 1.6.0

  • Oozie 5.2.0

  • Phoenix 5.0.0

  • Presto 0.232

  • Presto SQL 版本 338

  • Spark 3.0.0-amzn-0

  • TensorFlow 版本 2.1.0

  • Zeppelin 0.9.0-preview1

  • Zookeeper 3.4.14

  • 连接器和驱动程序:DynamoDB 连接器 4.14.0

新功能
  • ARM从亚马逊EMR版本 5.30.0 和亚马EMR逊 6.1.0 版开始支持实例类型。

  • 从 Amazon 6.1.0 和 5.30.0 EMR 版本开始,支持 M6g 通用实例类型。有关更多信息,请参阅 Amazon EMR 管理指南中的支持的实例类型

  • 从 Amazon EMR 版本 5.23.0 开始,支持EC2置放群组功能作为多个主节点集群的选项。目前,置放群组功能仅支持主节点类型,并会将 SPREAD 策略应用于这些主节点。SPREAD 策略将一小组实例放置在单独的基础硬件上,以防止发生硬件故障时出现多个主节点丢失的问题。有关更多信息,请参阅《Amazon EMR 管理指南》中的与EC2置放群组EMR集成

  • 托管扩展 — 在 Amazon 6.1.0 EMR 版本中,您可以启用 Amazon EMR 托管扩展,根据工作负载自动增加或减少集群中的实例或单元数量。Amazon 会EMR持续评估集群指标,以做出扩展决策,从而优化集群的成本和速度。托管扩展也适用于亚马逊 5.30.0 及更高EMR版本,6.0.0 除外。有关更多信息,请参阅 Amazon EMR 管理指南中的扩展集群资源

  • 6.1.0 支持 Presto SQL 版本 338。EMR有关更多信息,请参阅 Presto

    • 只有 EMR 6.1.0 及更高版本支持 Prest SQL o,EMR6.0.0 或 5.x 不支持。EMR

    • 可以继续使用应用程序名称 Presto 在集群上安装 PrestoDB。要SQL在集群上安装 Presto,请使用应用程序名称PrestoSQL

    • 您可以安装 PrestoDB 或 Presto,但不能SQL在单个集群上同时安装两者。如果在尝试创建集群时同时指定了 PrestoDB 和 SQL Presto,则会发生验证错误,集群创建请求将失败。

    • 单主集群和多主集群都支持 Pre SQL sto。在多主集群上,需要外部 Hive 元数据仓才能运行 Presto 或 PrestoDB。SQL请参阅具有多个主节点的EMR集群中支持的应用程序

  • ECRApache Hadoop 和带有 Docker 的 Apache Spark 支持自动身份验证:Spark 用户可以使用 Docker Hub 和亚马逊弹性容器注册表(亚马逊ECR)中的 Docker 镜像来定义环境和库依赖关系。

    使用 Ama EMR zon 6.x 配置 Docker 并使用 Docker 运行 Spark 应用程序。

  • EMR支持 Apache Hive ACID 事务:Amazon EMR 6.1.0 增加了对 Hive ACID 事务的支持,因此它符合数据库的ACID属性。借助此功能,您可以使用 Amazon Simple Storage Service(Amazon S3)中的数据在 Hive 托管表中运行INSERT, UPDATE, DELETE,MERGE操作。对于流媒体摄取、数据重述、使用批量更新和缓慢更改维度等用例来说MERGE,这是一项关键功能。有关更多信息,包括配置示例和用例,请参阅亚马逊EMR支持 Apache Hiv ACID e 事务。

更改、增强功能和解决的问题
  • 此版本旨在修复 Amazon EMR Scaling 无法成功扩展/缩小集群或导致应用程序故障时出现的问题。

  • 修复了 Amaz EMR on 集群上守护程序运行状况检查活动(例如收集YARN节点状态和HDFS节点状态)时,对利用率很高的大型集群的扩展请求失败的问题。之所以发生这种情况,是因为集群上的守护程序无法将节点的运行状况数据传送到内部 Ama EMR zon 组件。

  • 改进了EMR集群上的守护程序,可在重复使用 IP 地址时正确跟踪节点状态,从而提高扩展操作期间的可靠性。

  • SPARK-29683。修复了集群缩减期间出现任务失败的问题,因为 Spark 假定所有可用节点都被拒绝列出。

  • YARN-9011。修复了集群尝试向上或向下扩展时,由于YARN停用过程中的争用条件而导致任务失败的问题。

  • 通过确保 Amaz EMR on 集群上守护程序和 YARN /之间的节点状态始终保持一致,修复了集群扩展期间步骤或任务失败的问题。HDFS

  • 修复了启用了 Kerberos 身份验证的 Amazon 集群的EMR集群操作(例如缩减和步骤提交)失败的问题。这是因为 Amaz EMR on 集群上守护程序没有续订 Kerberos 票证,而要与主节点上YARN运行的 HDFS /进行安全通信,则需要续订 Kerberos 票证。

  • 较新的Amazon EMR 版本通过降低亚马逊较旧AL2版本的 “最大打开文件数” 限制来解决这个问题EMR。亚马逊EMR发布的5.30.1、5.30.2、5.31.1、5.32.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本现在包含一个永久修复程序,其中包含一个具有更高的 “最大打开文件数” 设置的永久修复。

  • EMR6.0.0 不支持 Apache Flink,但在 6.1.0 和 Flink 1.11.0 上EMR支持 Apache Flink。这是首个正式支持 Hadoop 3 的 Fink 版本。请参阅 Apache Flink 1.11.0 发布公告

  • Ganglia 已从默认 EMR 6.1.0 软件包捆绑包中移除。

已知问题
  • 降低旧版本的 “最大打开文件数” 限制 AL2 [在新版本中已修复]。亚马逊EMR版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0 和 emr-6.2.0 基于较旧版本的 Linux ofAmazon 2 ()AL2,当使用默认版本创建亚马逊集群时,“最大打开文件数” 的用户限制较低。EMR AMI亚马逊EMR发布的版本为5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本,包括具有更高的 “最大打开文件数” 设置的永久修复。如果使用打开文件数限制较低的发行版,会在提交 Spark 任务时导致“Too many open files”(打开的文件过多)错误。在受影响的版本中,亚马逊EMR默AMI认 “最大打开文件数” 的ulimit设置为4096,低于Linux 2中的65536个文件限制。 latestAmazon AMISpark 驱动程序和执行程序尝试打开超过 4096 个文件时,“打开的最大文件数”的较低 ulimit 设置会导致 Spark 任务失败。为了解决这个问题,Amazon EMR 提供了一个引导操作 (BA) 脚本,可以在创建集群时调整ulimit设置。

    如果您使用的是无法永久修复此问题的旧EMR版 Amazon,则可以使用以下解决方法将实例控制器 ulimit 明确设置为最多 65536 个文件。

    从命令行显式设置 ulimit
    1. 编辑 /etc/systemd/system/instance-controller.service,将以下参数添加到 Service (服务) 部分。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 重启 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    使用引导操作 (BA) 设置 ulimit

    您还可以在创建集群时使用引导操作(BA)脚本将实例控制器 ulimit 配置为 65536 个文件。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 重要

    Amazon EMR 6.1.0 和 6.2.0 包含一个性能问题,可能会严重影响 Hudi 的所有插入、更新和删除操作。如果您计划在亚马逊 EMR 6.1.0 或 6.2.0 中使用 Hudi,则应联系 Amazon 支持人员获取已修补的 Hudi。RPM

  • 如果您使用spark.driver.extraJavaOptions和设置自定义垃圾收集配置spark.executor.extraJavaOptions,则由于垃圾收集配置冲突,将导致 EMR 6.1 版的驱动程序/执行程序启动失败。在 6.1.0 EMR 版本中,您应该使用属性spark.driver.defaultJavaOptions为驱动程序和执行程序指定自定义 Spark 垃圾收集配置。spark.executor.defaultJavaOptionsApache Spark 运行时环境和在亚马逊 EMR 6.1.0 上配置 Spark 垃圾回收中阅读更多内容。

  • 在 Oozie 中使用 Pig(以及在 Hue 中,因为 Hue 使用 Oozie 操作来运行 Pig 脚本)会生成一个错误,即无法加载 native-lzo 库。此错误消息是信息性的,不会阻止 Pig 运行。

  • Hudi 并发支持:目前 Hudi 不支持并发写入单个 Hudi 表。此外,Hudi 会回滚处于运行状态的写入器所做的所有更改后再允许新写入器启动。并发写入可能会干扰此机制并引入竞争条件,这会导致数据损坏。您应确保作为数据处理工作流程的一部分,任何时候都只有一个 Hudi 写入器对 Hudi 表进行操作。Hudi 支持多个并发读取器对同一 Hudi 表进行操作。

  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

  • Amazon EMR 6.1.0 中存在一个影响运行 Presto 的集群的问题。经过很长一段时间(天)后,集群可能会抛出错误,例如 “su:failed toexecute /bin/bash:资源暂时不可用” 或 “通道 0 上的 shell 请求失败”。此问题是由亚马逊内部EMR进程 (InstanceController) 引起的,该进程生成了太多的轻量级进程 (LWP),最终导致 Hadoop 用户超出其 nproc 限制。这可以阻止用户打开其它进程。此问题的解决方案是升级到 EMR 6.2.0。

发行版 6.0.0

以下发行说明包含 Amazon EMR 版本 6.0.0 的信息。

首次发布日期:2020 年 3 月 10 日

受支持的应用程序
  • Amazon SDK for Java 版本 1.11.711

  • Ganglia 3.7.2

  • Hadoop 3.2.1

  • HBase版本 2.2.3

  • HCatalog版本 3.1.2

  • Hive 3.1.2

  • Hudi 0.5.0-incubating

  • Hue 4.4.0

  • JupyterHub 版本 1.0.0

  • Livy 0.6.0

  • MXNet版本 1.5.1

  • Oozie 5.1.0

  • Phoenix 5.0.0

  • Presto 0.230

  • Spark 2.4.4

  • TensorFlow 版本 1.14.0

  • 齐柏林飞艇版本 0.9.0-SNAPSHOT

  • Zookeeper 3.4.14

  • 连接器和驱动程序:DynamoDB 连接器 4.14.0

注意

Flink、Sqoop、Pig 和 Mahout 在亚马逊版本 6.0.0 中不可用。EMR

新功能
更改、增强功能和解决的问题
  • 此版本旨在修复 Amazon EMR Scaling 无法成功扩展/缩小集群或导致应用程序故障时出现的问题。

  • 修复了 Amaz EMR on 集群上守护程序运行状况检查活动(例如收集YARN节点状态和HDFS节点状态)时,对利用率很高的大型集群的扩展请求失败的问题。之所以发生这种情况,是因为集群上的守护程序无法将节点的运行状况数据传送到内部 Ama EMR zon 组件。

  • 改进了EMR集群上的守护程序,可在重复使用 IP 地址时正确跟踪节点状态,从而提高扩展操作期间的可靠性。

  • SPARK-29683。修复了集群缩减期间出现任务失败的问题,因为 Spark 假定所有可用节点都被拒绝列出。

  • YARN-9011。修复了集群尝试向上或向下扩展时,由于YARN停用过程中的争用条件而导致任务失败的问题。

  • 通过确保 Amaz EMR on 集群上守护程序和 YARN /之间的节点状态始终保持一致,修复了集群扩展期间步骤或任务失败的问题。HDFS

  • 修复了启用了 Kerberos 身份验证的 Amazon 集群的EMR集群操作(例如缩减和步骤提交)失败的问题。这是因为 Amaz EMR on 集群上守护程序没有续订 Kerberos 票证,而要与主节点上YARN运行的 HDFS /进行安全通信,则需要续订 Kerberos 票证。

  • 较新的Amazon EMR 版本通过降低亚马逊较旧AL2版本的 “最大打开文件数” 限制来解决这个问题EMR。亚马逊EMR发布的5.30.1、5.30.2、5.31.1、5.32.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本现在包含一个永久修复程序,其中包含一个具有更高的 “最大打开文件数” 设置的永久修复。

  • Amazon Linux

    • 亚马逊 Linux 2 是 EMR 6.x 版本系列的操作系统。

    • systemd用于服务管理,而不是upstart使用的 inAmazon Linux 1。

  • Java 开发套件 (JDK)

    • C JDK orretto 8 是 6.x 版本系列EMR的JDK默认版本。

  • Scala

    • Scala 2.12 与 Apache Spark 和 Apache Livy 一起使用。

  • Python 3

    • Python 3 现在是中默认版本的 Python EMR。

  • YARN节点标签

    • 从 Amazon EMR 6.x 版本系列开始,默认情况下YARN节点标签功能处于禁用状态。默认情况下,应用程序主进程可以在核心节点和任务节点上运行。您可以通过配置以下属性来启用YARN节点标签功能:yarn.node-labels.enabledyarn.node-labels.am.default-node-label-expression。有关更多信息,请参阅了解主节点、核心节点和任务节点

已知问题
  • 降低旧版本的 “最大打开文件数” 限制 AL2 [在新版本中已修复]。亚马逊EMR版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0 和 emr-6.2.0 基于较旧版本的 Linux ofAmazon 2 ()AL2,当使用默认版本创建亚马逊集群时,“最大打开文件数” 的用户限制较低。EMR AMI亚马逊EMR发布的版本为5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本,包括具有更高的 “最大打开文件数” 设置的永久修复。如果使用打开文件数限制较低的发行版,会在提交 Spark 任务时导致“Too many open files”(打开的文件过多)错误。在受影响的版本中,亚马逊EMR默AMI认 “最大打开文件数” 的ulimit设置为4096,低于Linux 2中的65536个文件限制。 latestAmazon AMISpark 驱动程序和执行程序尝试打开超过 4096 个文件时,“打开的最大文件数”的较低 ulimit 设置会导致 Spark 任务失败。为了解决这个问题,Amazon EMR 提供了一个引导操作 (BA) 脚本,可以在创建集群时调整ulimit设置。

    如果您使用的是无法永久修复此问题的旧EMR版 Amazon,则可以使用以下解决方法将实例控制器 ulimit 明确设置为最多 65536 个文件。

    从命令行显式设置 ulimit
    1. 编辑 /etc/systemd/system/instance-controller.service,将以下参数添加到 Service (服务) 部分。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 重启 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    使用引导操作 (BA) 设置 ulimit

    您还可以在创建集群时使用引导操作(BA)脚本将实例控制器 ulimit 配置为 65536 个文件。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • Spark 交互式外壳 PySpark,包括 SparkR 和 spark-shell,不支持将 Docker 与其他库一起使用。

  • 要在亚马逊 6.0.0 EMR 版本中使用 Python 3,必须添加PATH到。yarn.nodemanager.env-whitelist

  • 当您使用 Amazon Glue 数据目录作为 Hive 的元存储时,不支持 Live Long 和 Process (LLAP) 功能。

  • 使用集成 Spark 和 Docker 的 Amazon EMR 6.0.0 时,您需要在集群中配置具有相同实例类型和相同数量的EBS卷的实例,以避免在提交 Docker 运行时的 Spark 任务时失败。

  • 在亚马逊 EMR 6.0.0 中,亚马逊 S3 HBase 上的存储模式受到 HBASE-24 286. 问题的影响。HBase使用现有 S3 数据创建集群时,master 无法初始化。

  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

发行版 5.30.1

以下发行说明包含有关亚马逊 5.30.1 EMR 版本的信息。更改与 5.30.0 有关。

首次发布日期:2020 年 6 月 30 日

上次更新时间:2020 年 8 月 24 日

更改、增强功能和解决的问题
  • 较新的Amazon EMR 版本通过降低亚马逊较旧AL2版本的 “最大打开文件数” 限制来解决这个问题EMR。亚马逊EMR发布的5.30.1、5.30.2、5.31.1、5.32.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本现在包含一个永久修复程序,其中包含一个具有更高的 “最大打开文件数” 设置的永久修复。

  • 修复了实例控制器进程生成无限量进程的问题。

  • 修复了以下问题:Hue 无法运行 Hive 查询并显示“database is locked(数据库已锁定)”消息、阻止执行查询的问题。

  • 修复了 Spark 问题,允许在EMR集群上同时运行更多任务。

  • 修复了一个 Jupyter notebook 问题,该问题会导致 Jupyter 服务器中出现“too many files open error(打开过多文件错误)”。

  • 修复了集群启动时间的问题。

新功能
  • Tez 用户界面和YARN时间轴服务器永久应用程序接口适用于亚马逊 6.x EMR 版本和 5.30.1 及EMR更高版本。通过单击链接访问永久应用程序历史记录,无需通过SSH连接设置 Web 代理,即可快速访问作业历史记录。活动和已终止集群的日志将在应用程序结束后保留 30 天。有关更多信息,请参阅 Amazon EMR 管理指南中的查看永久应用程序用户界面

  • EMR笔记本执行APIs可以通过脚本或命令行执行EMR笔记本。无需 Amazon 控制台即可启动、停止、列出和描述EMR笔记本执行的功能,使您能够以编程方式控制EMR笔记本电脑。借助参数化笔记本单元,您可以将不同的参数值传递给笔记本,而无需为每组新参数值创建笔记本副本。参见EMRAPI操作。有关示例代码,请参阅以编程方式执行 EMR Notebook 的示例命令

已知问题
  • 降低旧版本的 “最大打开文件数” 限制 AL2 [在新版本中已修复]。亚马逊EMR版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0 和 emr-6.2.0 基于较旧版本的 Linux ofAmazon 2 ()AL2,当使用默认版本创建亚马逊集群时,“最大打开文件数” 的用户限制较低。EMR AMI亚马逊EMR发布的版本为5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本,包括具有更高的 “最大打开文件数” 设置的永久修复。如果使用打开文件数限制较低的发行版,会在提交 Spark 任务时导致“Too many open files”(打开的文件过多)错误。在受影响的版本中,亚马逊EMR默AMI认 “最大打开文件数” 的ulimit设置为4096,低于Linux 2中的65536个文件限制。 latestAmazon AMISpark 驱动程序和执行程序尝试打开超过 4096 个文件时,“打开的最大文件数”的较低 ulimit 设置会导致 Spark 任务失败。为了解决这个问题,Amazon EMR 提供了一个引导操作 (BA) 脚本,可以在创建集群时调整ulimit设置。

    如果您使用的是无法永久修复此问题的旧EMR版 Amazon,则可以使用以下解决方法将实例控制器 ulimit 明确设置为最多 65536 个文件。

    从命令行显式设置 ulimit
    1. 编辑 /etc/systemd/system/instance-controller.service,将以下参数添加到 Service (服务) 部分。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 重启 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    使用引导操作 (BA) 设置 ulimit

    您还可以在创建集群时使用引导操作(BA)脚本将实例控制器 ulimit 配置为 65536 个文件。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • EMR笔记本电脑

    在 5.30.1 EMR 版本中,允许您在集群主节点上安装内核和其他 Python 库的功能默认处于禁用状态。有关此功能的更多信息,请参阅在集群主节点上安装内核和 Python 库

    要启动此功能,请执行以下操作:

    1. 确保附加到 Notebook 服务角色的权限EMR策略允许执行以下操作:

      elasticmapreduce:ListSteps

      有关更多信息,请参阅EMR笔记本的服务角色

    2. 使用在 Amazon CLI 集群上运行设置 EMR Notebook 的步骤,如以下示例所示。Replace(替换) us-east-1 与您的集群所在的区域相同。有关更多信息,请参阅使用 Amazon CLI向集群中添加步骤

      aws emr add-steps --cluster-id MyClusterID --steps Type=CUSTOM_JAR,Name=EMRNotebooksSetup,ActionOnFailure=CONTINUE,Jar=s3://us-east-1.elasticmapreduce/libs/script-runner/script-runner.jar,Args=["s3://awssupportdatasvcs.com/bootstrap-actions/EMRNotebooksSetup/emr-notebooks-setup.sh"]
  • 托管扩展

    在未安装 Presto 的 5.30.0 和 5.30.1 的集群上进行托管扩展操作可能会导致应用程序故障或导致统一的实例组或实例集处于 ARRESTED 状态,尤其是在缩减操作之后快速执行扩展操作时。

    解决方法是,即使您的任务不需要 Presto,也可以在创建包含亚马逊EMR版本 5.30.0 和 5.30.1 的集群时选择 Presto 作为要安装的应用程序。

  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

发行版 5.30.0

以下发行说明包含 Amazon EMR 版本 5.30.0 的信息。更改与 5.29.0 有关。

首次发布日期:2020 年 5 月 13 日

上次更新日期:2020 年 6 月 25 日

升级
  • 已升级 Amazon SDK for Java 到 1.11.759 版本

  • 已将 Amazon SageMaker Spark 升级SDK到 1.3.0 版

  • 已将 R EMR ecord Server 升级到 1.6.0 版

  • 已将 Flink 升级到版本 1.10.0

  • 已将 Ganglia 升级到版本 3.7.2

  • 已升级HBase到 1.4.13 版

  • 已将 Hudi 升级到版本 0.5.2-incubating

  • 已将 Hue 升级到版本 4.6.0

  • 已升级 JupyterHub 到 1.1.0 版

  • 已将升级 Livy 到版本 0.7.0-incubating

  • 已将 Oozie 升级到版本 5.2.0

  • 已将 Presto 升级到版本 0.232

  • 已将 Spark 升级到版本 2.4.5

  • 升级后的连接器和驱动程序:亚马逊 Glue Connector 1.12.0;亚马逊 Kinesis Connector 3.5.0;DynamoDB 连接器 4.14.0 EMR

新功能
  • EMR笔记本-与使用 5.30.0 创建的EMR集群一起使用时,EMR笔记本内核在集群上运行。这可以提高笔记本的性能,并允许您安装和自定义内核。您还可以在集群主节点上安装 Python 库。有关更多信息,请参阅《EMR管理指南》中的安装和使用内核和库

  • 托管扩展 — 在 Amazon 5.30.0 及更高EMR版本中,您可以启用EMR托管扩展,从而根据工作负载自动增加或减少集群中的实例或单元数量。Amazon 会EMR持续评估集群指标,以做出扩展决策,从而优化集群的成本和速度。有关更多信息,请参阅 Amazon EMR 管理指南中的扩展集群资源

  • 加密存储在 Amazon S3 中的日志文件 — 在 Amazon 5.30.0 及更高EMR版本中,您可以使用 Amazon KMS 客户托管密钥加密存储在 Amazon S3 中的日志文件。有关更多信息,请参阅《亚马逊EMR管理指南》中的加密存储在 Amazon S3 中的日志文件

  • 亚马逊 Linux 2 支持 — 在 5.30.0 及更高EMR版本中,EMR usesAmazon Linux 2 操作系统。新的自定义AMIs(Amazon 机器映像)必须基于 theAmazon Linux 2 AMI。有关更多信息,请参阅使用自定义AMI

  • Presto Graceful Auto Scale — 使用 5.30.0 的EMR集群可以设置自动缩放超时时间,让 Presto 任务有时间在节点停用之前完成运行。有关更多信息,请参阅 使用采用 Graceful Decommission 的 Presto 自动扩展配置

  • 使用新的分配策略选项创建舰队实例 — 5.12.1 及更高EMR版本中提供了新的分配策略选项。它加快了集群预置、提高了 Spot 分配的准确性并减少了竞价型实例中断。需要更新非默认EMR服务角色。请查看配置实例集

  • sudo systemctl stop 和 sudo systemctl 启动命令 — 在 5.30.0 及更高EMR版本中, useAmazon Linux 2 操作系统使用和命令来重启服务。EMR sudo systemctl stop sudo systemctl start有关更多信息,请参阅如何在 Amazon 中重启服务EMR?

更改、增强功能和解决的问题
  • EMR默认情况下,版本 5.30.0 不安装 Ganglia。您可以在创建集群时明确选择 Ganglia 进行安装。

  • Spark 性能优化。

  • Presto 性能优化。

  • Python 3 是亚马逊 5.30.0 及更高EMR版本的默认版本。

  • 用于私有子网中服务访问的默认托管安全组已使用新规则进行更新。如果使用自定义安全组进行服务访问,则必须包含与默认托管安全组相同的规则。有关更多信息,请参阅 EMRAmazon 服务访问托管安全组(私有子网)。如果您为 Amazon 使用自定义服务角色EMR,则必须向授予权限,ec2:describeSecurityGroups这样EMR才能验证安全组的创建是否正确。如果您使用 EMR_DefaultRole,则此权限已包含在默认托管式策略中。

已知问题
  • 降低旧版本的 “最大打开文件数” 限制 AL2 [在新版本中已修复]。亚马逊EMR版本:emr-5.30.x、emr-5.31.0、emr-5.32.0、emr-6.0.0、emr-6.1.0 和 emr-6.2.0 基于较旧版本的 Linux ofAmazon 2 ()AL2,当使用默认版本创建亚马逊集群时,“最大打开文件数” 的用户限制较低。EMR AMI亚马逊EMR发布的版本为5.30.1、5.30.2、5.31.1、5.32.1、6.0.1、6.1.1、6.2.1、5.33.0、6.3.0及更高版本,包括具有更高的 “最大打开文件数” 设置的永久修复。如果使用打开文件数限制较低的发行版,会在提交 Spark 任务时导致“Too many open files”(打开的文件过多)错误。在受影响的版本中,亚马逊EMR默AMI认 “最大打开文件数” 的ulimit设置为4096,低于Linux 2中的65536个文件限制。 latestAmazon AMISpark 驱动程序和执行程序尝试打开超过 4096 个文件时,“打开的最大文件数”的较低 ulimit 设置会导致 Spark 任务失败。为了解决这个问题,Amazon EMR 提供了一个引导操作 (BA) 脚本,可以在创建集群时调整ulimit设置。

    如果您使用的是无法永久修复此问题的旧EMR版 Amazon,则可以使用以下解决方法将实例控制器 ulimit 明确设置为最多 65536 个文件。

    从命令行显式设置 ulimit
    1. 编辑 /etc/systemd/system/instance-controller.service,将以下参数添加到 Service (服务) 部分。

      LimitNOFILE=65536

      LimitNPROC=65536

    2. 重启 InstanceController

      $ sudo systemctl daemon-reload

      $ sudo systemctl restart instance-controller

    使用引导操作 (BA) 设置 ulimit

    您还可以在创建集群时使用引导操作(BA)脚本将实例控制器 ulimit 配置为 65536 个文件。

    #!/bin/bash for user in hadoop spark hive; do sudo tee /etc/security/limits.d/$user.conf << EOF $user - nofile 65536 $user - nproc 65536 EOF done for proc in instancecontroller logpusher; do sudo mkdir -p /etc/systemd/system/$proc.service.d/ sudo tee /etc/systemd/system/$proc.service.d/override.conf << EOF [Service] LimitNOFILE=65536 LimitNPROC=65536 EOF pid=$(pgrep -f aws157.$proc.Main) sudo prlimit --pid $pid --nofile=65535:65535 --nproc=65535:65535 done sudo systemctl daemon-reload
  • 托管扩展

    在未安装 Presto 的 5.30.0 和 5.30.1 的集群上进行托管扩展操作可能会导致应用程序故障或导致统一的实例组或实例集处于 ARRESTED 状态,尤其是在缩减操作之后快速执行扩展操作时。

    解决方法是,即使您的任务不需要 Presto,也可以在创建包含亚马逊EMR版本 5.30.0 和 5.30.1 的集群时选择 Presto 作为要安装的应用程序。

  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

  • Hue 4.6.0 的默认数据库引擎是SQLite,当您尝试将 Hue 与外部数据库配合使用时,这会导致出现问题。若要解决此问题,请在您的 hue-ini 配置分类中将 engine 设置为 mysql。此问题已在亚马逊EMR版本 5.30.1 中修复。

  • 当你使用带有 Hive 分区位置格式的 Spark 来读取 Amazon S3 中的数据,并在亚马逊EMR版本 5.30.0 到 5.36.0 和 6.2.0 到 6.9.0 上运行 Spark 时,你可能会遇到一个问题,导致集群无法正确读取数据。如果您的分区具有以下所有特征,会发生这种情况:

    • 从同一个表扫描两个或多个分区。

    • 至少有一个分区目录路径是至少一个其他分区目录路径的前缀,例如,s3://bucket/table/p=as3://bucket/table/p=a b 的前缀。

    • 另一个分区目录中前缀之后的第一个字符的值为 UTF -8,小于该/字符 (U+002F)。例如,在 s3://bucket/table/p=a b 中,a 和 b 之间出现的空格字符 (U+0020) 就属于此类。请注意,还有其他 14 个非控制字符:!"#$%&‘()*+,-。有关更多信息,请参阅 UTF-8 编码表和 Unicode 字符

    解决方法是在 spark-defaults 分类中将 spark.sql.sources.fastS3PartitionDiscovery.enabled 配置设置为 false

发行版 5.29.0

以下发行说明包含有关亚马逊 5.29. EMR 0 版本的信息。更改与 5.28.1 有关。

首次发布日期:2020 年 1 月 17 日

升级
  • 已升级 Amazon SDK for Java 到 1.11.682 版本

  • 已将 Hive 升级到版本 2.3.6

  • 已将 Flink 升级到版本 1.9.1

  • 已将 EMRFS 升级到版本 2.38.0

  • 已将 EMR DynamoDB 连接器升级到版本 4.13.0

更改、增强功能和解决的问题
  • Spark

    • Spark 性能优化。

  • EMRFS

    • 将管理指南更新为 emrfs-site.xml 默认设置以实现了一致视图。

已知问题
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.28.1

以下发行说明包含有关亚马逊 5.28.1 EMR 版本的信息。更改与 5.28.0 有关。

首次发布日期:2020 年 1 月 10 日

更改、增强功能和解决的问题
  • Spark

    • 修复了 Spark 兼容性问题。

  • CloudWatch 指标

    • 修复了在具有多个主节点的EMR集群上发布亚马逊 CloudWatch 指标的问题。

  • 已禁用日志消息

    • 已禁用假日志消息“...using old version (<4.5.8) of Apache http client”(使用低于版本 4.5.8 的 Apache http 客户端)。

已知问题
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.28.0

以下发行说明包含有关亚马逊 5.28. EMR 0 版本的信息。更改与 5.27.0 有关。

首次发布日期:2019 年 11 月 12 日

升级
  • 已将 Flink 升级到版本 1.9.0

  • 已将 Hive 升级到版本 2.3.6

  • 已升级MXNet到 1.5.1 版

  • 已将 Phoenix 升级到版本 4.14.3

  • 已将 Presto 升级到版本 0.227

  • 已将 Zeppelin 升级到版本 0.8.2

新功能
  • Apache Hudi 现在EMR可供亚马逊在你创建集群时安装。有关更多信息,请参阅 Hudi

  • (2019 年 11 月 25 日)您现在可以选择并行运行多个步骤以提高集群利用率并节省成本。您还可以取消待处理和正在运行的步骤。有关更多信息,请参阅使用 Amazon CLI 和控制台处理步骤

  • (2019 年 12 月 3 日)您现在可以在上创建和运行EMR集群 Amazon Outposts。 Amazon Outposts 在本地设施中启用原生 Amazon 服务、基础设施和运营模式。在 Amazon Outposts 环境中,您可以使用与 Amazon 云端相同的 Amazon APIs工具和基础架构。有关更多信息,请参阅上的EMR集群 Amazon Outposts

  • (2020 年 3 月 11 日)从 Amazon EMR 版本 5.28.0 开始,您可以在本地区域子网上创建和运行亚马逊EMR集群,作为支持 Amazon 本地区域的 Amazon 区域的逻辑扩展。本地区域使得 Amazon EMR 功能和部分 Amazon 服务(例如计算和存储服务)可以位于离用户更近的地方,从而为本地运行的应用程序提供极低的延迟访问。有关可用的 Local Zones 列表,请参阅 Amazon Local Zones。有关访问可用 Amazon 本地区域的信息,请参阅区域、可用区和本地区域

    Local Zones 目前不支持亚马逊EMR笔记本电脑,也不支持EMR使用接口VPC终端节点 (Amazon PrivateLink) 直接连接到亚马逊。

更改、增强功能和解决的问题
已知问题
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.27.0

以下发行说明包含有关亚马逊 5.27. EMR 0 版本的信息。更改与 5.26.0 有关。

首次发布日期:2019 年 9 月 23 日

升级
  • Amazon SDK for Java 1.11.615

  • Flink 1.8.1

  • JupyterHub 1.0.0

  • Spark 2.4.4

  • Tensorflow 1.14.0

  • 连接器和驱动程序:

    • DynamoDB 连接器 4.12.0

新功能
  • (2019 年 10 月 24 日)所有亚马逊EMR版本均提供EMR笔记本电脑的以下新功能。

    • 现在,您可以将 Git 存储库与EMR笔记本关联,将您的笔记本存储在版本控制的环境中。您可以通过远程 Git 存储库与同行共享代码,并重复使用现有的 Jupyter notebook。有关更多信息,请参阅《亚马逊EMR管理指南》中的 “将 Git 存储库与亚马逊EMR笔记本关联”。

    • nbdime 实用程序现已在EMR笔记本中提供,用于简化比较和合并笔记本电脑。

    • EMR现在支持笔记本电脑 JupyterLab。 JupyterLab 是一个基于 Web 的交互式开发环境,与 Jupyter 笔记本电脑完全兼容。现在,你可以选择在 Jupyter 笔记本编辑器 JupyterLab 或 Jupyter 笔记本编辑器中打开笔记本。

  • (2019 年 10 月 30 日)在 Amazon 5.25.0 及更高EMR版本中,您可以从集群摘要页面或控制台的 “应用程序历史记录” 选项卡连接到 Spark 历史服务器用户界面。您无需通过SSH连接设置 Web 代理,而是可以快速访问 Spark 历史服务器用户界面来查看应用程序指标并访问活动集群和已终止集群的相关日志文件。有关更多信息,请参阅 Amazon EMR 管理指南中的集群外访问永久应用程序用户界面

更改、增强功能和解决的问题
已知问题
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.26.0

以下发行说明包含有关亚马逊 5.26. EMR 0 版本的信息。更改与 5.25.0 有关。

首次发布日期:2019 年 8 月 8 日

上次更新日期:2019 年 8 月 19 日

升级
  • Amazon SDK for Java 1.11.595

  • HBase1.4.10

  • Phoenix 4.14.2

  • 连接器和驱动程序:

    • DynamoDB 连接器 4.11.0

    • MariaDB 连接器 2.4.2

    • 亚马逊 Redshift JDBC Driver 1.2.32.1056

新功能
  • (测试版)使用亚马逊 EMR 5.26.0,您可以启动与 Lake Formation 集成的集群。这种集成提供了对 Glue 数据目录中的数据库和表的精细列级访问。 Amazon 它还支持从企业身份系统对EMR笔记本或 Apache Zeppelin 进行联合单点登录。有关更多信息,请参阅将 Amazon EMR 与 Amazon Lake Formation (测试版)集成。

  • (2019 年 8 月 19 日)所有支持安全组的亚马逊EMR版本现在都支持亚马逊EMR屏蔽公共访问。屏蔽公共访问是适用于每个 Amazon 地区的账户范围的设置。除非将端口指定为例外,否则当任何与集群关联的安全组都有允许某个端口上来自 IPv4 0.0.0.0/0 或IPv6:: /0(公共访问)的入站流量时,阻止公有访问会阻止集群启动。默认情况下,端口 22 是一个例外。有关更多信息,请参阅《亚马逊EMR管理指南》中的 “使用 Amazon EMR 阻止公共访问”。

更改、增强功能和解决的问题
  • EMR笔记本电脑

    • 在 EMR 5.26.0 及更高版本中,EMR笔记本除了默认的 Python 库外,还支持笔记本电脑范围的 Python 库。无需重新创建集群或重新将笔记本附加到集群,您即可从笔记本编辑器中安装笔记本范围的库。笔记本范围的库是在 Python 虚拟环境中创建的,因此适用于当前笔记本会话。这使得您可以隔离笔记本依赖项。有关更多信息,请参阅 Amazon EMR 管理指南中的使用笔记本范围的库

  • EMRFS

    • 您可以通过将设置fs.s3.consistent.metadata.etag.verification.enabled为来启用ETag验证功能(测试版)true。借助此功能,ETags可以EMRFS使用 Amazon S3 验证正在读取的对象是否为最新可用版本。此功能对于 Amazon S3 上的文件被覆盖,同时保留相同名称的 read-after-update用例非常有用。此ETag验证功能目前不适用于 S3 Select。有关更多信息,请参阅配置统一视图

  • Spark

    • 现在默认启用了以下优化:DISTINCT之前的动态分区修剪、JOIN后续查询的SQL计划统计推断的改进INTERSECT、标量子DISTINCT查询的扁平化、优化的联接重新排序以及布隆过滤器联接。有关更多信息,请参阅优化 Spark 性能

    • 改进了排序合并连接的整个阶段代码生成。

    • 改进了查询片段和子查询重用。

    • 改进了 Spark 启动时的预分配执行程序。

    • 连接的较小侧包含广播提示时,不再应用 Bloom 筛选条件连接。

  • Tez

    • 已解决 Tez 中存在的问题。Tez UI 现在可以在具有多个主节点的 Amazon EMR 集群上运行。

已知问题
  • 改进的“排序合并连接的整个阶段代码生成”功能在启用后会增加内存压力。此优化可提高性能,但如果 spark.yarn.executor.memoryOverheadFactor 未调整,不能提供足够的内存,则会导致任务重试或失败。要禁用此功能,请将 spark.sql.sortMergeJoinExec.extendedCodegen.enabled 设置为 false。

  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.25.0

以下发行说明包含有关亚马逊 5.25. EMR 0 版本的信息。更改与 5.24.1 有关。

首次发布日期:2019 年 7 月 17 日

上次更新日期:2019 年 10 月 30 日

亚马逊 EMR 5.25.0

升级
  • Amazon SDK for Java 1.11.566

  • Hive 2.3.5

  • Presto 0.220

  • Spark 2.4.3

  • TensorFlow 1.13.1

  • Tez 0.9.2

  • Zookeeper 3.4.14

新功能
  • (2019 年 10 月 30 日)从 Amazon EMR 版本 5.25.0 开始,您可以从集群摘要页面或控制台的 “应用程序历史记录” 选项卡连接到 Spark 历史服务器用户界面。您无需通过SSH连接设置 Web 代理,而是可以快速访问 Spark 历史服务器用户界面来查看应用程序指标并访问活动集群和已终止集群的相关日志文件。有关更多信息,请参阅 Amazon EMR 管理指南中的集群外访问永久应用程序用户界面

更改、增强功能和解决的问题
  • Spark

    • 通过使用 Bloom 筛选条件预筛选输入,提高了某些连接的性能。默认情况下,优化处于禁用状态,但可以通过以下方式启用:将 Spark 配置参数 spark.sql.bloomFilterJoin.enabled 设置为 true

    • 改进了按字符串类型列分组的性能。

    • 改进了未HBase安装的集群的 R4 实例类型的默认 Spark 执行器内存和内核配置。

    • 解决了动态分区修剪功能之前存在的一个问题,即修剪的表必须位于联接的左侧。

    • DISTINCT在INTERSECT优化之前进行了改进,适用于其他涉及别名的情况。

    • 改进了JOIN后续DISTINCT查询的SQL计划统计数据推断。默认情况下,该改进处于禁用状态,但可以通过以下方式启用:将 Spark 配置参数 spark.sql.statsImprovements.enabled 设置为 true。此优化是“Distinct before Intersect”功能所需的,将 spark.sql.optimizer.distinctBeforeIntersect.enabled 设置为 true 时将自动启用。

    • 根据表格大小和筛选条件优化了联接顺序。默认情况下,该优化处于禁用状态,但可以通过以下方式启用:将 Spark 配置参数 spark.sql.optimizer.sizeBasedJoinReorder.enabled 设置为 true

    有关更多信息,请参阅优化 Spark 性能

  • EMRFS

    • 现在,默认情况下fs.s3.buckets.create.enabled,该EMRFS设置处于禁用状态。通过测试,我们发现禁用此设置可提高性能并可防止意外创建 S3 存储桶。如果您的应用程序需使用此功能,则可以通过以下方式启用:将 emrfs-site 配置分类中的 fs.s3.buckets.create.enabled 设置为 true。有关更多信息,请参阅在创建集群时提供配置

  • 安全配置中的本地磁盘加密和 S3 加密改进(2019 年 8 月 5 日)

    • 在安全配置设置中将 Amazon S3 加密设置与本地磁盘加密设置分开。

    • 添加了在 5.24.0 及更高版本中启用EBS加密的选项。选择此选项后,除了存储卷之外,还会加密根设备卷。以前的版本需要使用自定义AMI来加密根设备卷。

    • 有关更多信息,请参阅 Amazon EMR 管理指南中的加密选项

已知问题
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.24.1

以下发行说明包含有关亚马逊 5.24.1 EMR 版本的信息。更改与 5.24.0 有关。

首次发布日期:2019 年 6 月 26 日

更改、增强功能和解决的问题
  • 更新了亚马逊的默认 Amazon L AMI inux,EMR使其包含重要的 Linux 内核安全更新,包括TCPSACK拒绝服务问题 (AWS-2019-005)。

已知问题
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.24.0

以下发行说明包含有关亚马逊 5.24. EMR 0 版本的信息。更改与 5.23.0 有关。

首次发布日期:2019 年 6 月 11 日

上次更新时间:2019 年 8 月 5 日

升级
  • Flink 1.8.0

  • Hue 4.4.0

  • JupyterHub 0.9.6

  • Livy 0.6.0

  • MxNet 1.4.0

  • Presto 0.219

  • Spark 2.4.2

  • Amazon SDK for Java 1.11.546

  • 连接器和驱动程序:

    • DynamoDB 连接器 4.9.0

    • MariaDB 连接器 2.4.1

    • 亚马逊 Redshift JDBC Driver 1.2.27.1051

更改、增强功能和解决的问题
  • Spark

    • 添加了对动态修剪分区的优化。默认情况下禁用优化。要启用该优化,请将 Spark 参数 spark.sql.dynamicPartitionPruning.enabled 设置为 true

    • 改进了 INTERSECT 查询的性能。默认情况下禁用此优化。要启用该优化,请将 Spark 参数 spark.sql.optimizer.distinctBeforeIntersect.enabled 设置为 true

    • 添加了对展平标量子查询的优化,可使用相同关系进行聚合。默认情况下禁用优化。要启用该优化,请将 Spark 参数 spark.sql.optimizer.flattenScalarSubqueriesWithAggregates.enabled 设置为 true

    • 改进了整个阶段代码生成。

    有关更多信息,请参阅优化 Spark 性能

  • 安全配置中的本地磁盘加密和 S3 加密改进(2019 年 8 月 5 日)

    • 在安全配置设置中将 Amazon S3 加密设置与本地磁盘加密设置分开。

    • 添加了启用EBS加密的选项。选择此选项后,除了存储卷之外,还会加密根设备卷。以前的版本需要使用自定义AMI来加密根设备卷。

    • 有关更多信息,请参阅 Amazon EMR 管理指南中的加密选项

已知问题
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.23.0

以下发行说明包含有关亚马逊 5.23. EMR 0 版本的信息。更改与 5.22.0 有关。

首次发布日期:2019 年 4 月 1 日

上次更新时间:2019 年 4 月 30 日

升级
  • Amazon SDK for Java 1.11.519

新功能
  • (2019 年 4 月 30 日)在 Amazon EMR 5.23.0 及更高版本中,您可以启动包含三个主节点的集群,以支持YARN资源管理器、Spark HDFS NameNode、Hive 和 Ganglia 等应用程序的高可用性。使用此功能,主节点不再发生潜在的单点故障。如果其中一个主节点出现故障,Amazon EMR 会自动故障转移到备用主节点,并将故障主节点替换为具有相同配置和引导操作的新主节点。有关更多信息,请参阅计划和配置主节点

已知问题
  • Tez 用户界面(已在亚马逊EMR版本 5.26.0 中修复)

    Tez UI 不适用于具有多个主节点的EMR集群。

  • Hue(已在亚马逊 5.24. EMR 0 版本中修复)

    • 在亚马逊上运行的 Hue EMR 不支持 Solr。从 Amazon 5.20.0 EMR 版本开始,配置错误问题会导致 Solr 被启用,并显示类似于以下内容的无害错误消息:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      要防止显示 Solr 错误消息:

      1. 使用连接到主节点命令行SSH。

      2. 使用文本编辑器打开 hue.ini 文件。例如:

        sudo vim /etc/hue/conf/hue.ini

      3. 搜索术语 appblacklist,并将该行修改为以下内容:

        appblacklist = search
      4. 保存更改并重新启动 Hue,如以下示例所示:

        sudo stop hue; sudo start hue
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.22.0

以下发行说明包含有关亚马逊 5.22. EMR 0 版本的信息。更改与 5.21.0 有关。

重要

从亚马逊EMR版本 5.22.0 开始,亚马逊仅EMR使用 Amazon 签名版本 4 来验证向亚马逊 S3 发出的请求。早期的 Amazon EMR 版本在某些情况下使用 Amazon 签名版本 2,除非发行说明中注明仅使用签名版本 4。有关更多信息,请参阅《亚马逊简单存储服务开发者Amazon 指南》中的对请求进行身份验证(Amazon 签名版本 4)和对请求进行身份验证(签名版本 2)

首次发布日期:2019 年 3 月 20 日

升级
  • Flink 1.7.1

  • HBase1.4.9

  • Oozie 5.1.0

  • Phoenix 4.14.1

  • Zeppelin 0.8.1

  • 连接器和驱动程序:

    • DynamoDB 连接器 4.8.0

    • MariaDB 连接器 2.2.6

    • 亚马逊 Redshift JDBC Driver 1.2.20.1043

新功能
  • 修改了EBS仅限存储空间的EC2实例类型的默认EBS配置。当您使用 Amazon EMR 版本 5.22.0 及更高版本创建集群时,默认EBS存储量会根据实例的大小而增加。此外,我们将增加的存储空间分配到多个卷中,从而提高了IOPS性能。如果要使用不同的EBS实例存储配置,可以在创建EMR集群或向现有集群添加节点时指定该配置。有关默认为每种实例类型分配的存储量和卷数量的更多信息,请参阅 Amazon EMR 管理指南中的实例默认EBS存储

更改、增强功能和解决的问题
  • Spark

    • 在 Spark 上YARN引入了一个新的配置属性spark.yarn.executor.memoryOverheadFactor。此属性的值是一个缩放系数,它将内存开销值设置为执行程序内存的百分比,最小为 384 MB。如果内存开销设置为使用 spark.yarn.executor.memoryOverhead,则此属性不发挥任何作用。默认值为 0.1875,表示 18.75%。与Spark内部设置的10%默认值相比,Amazon的默认值在YARN容器中为执行程序的内存开销EMR留出了更多的空间。根据经验,Amazon的EMR默认值为18.75%,表明-DS基准测试中与内存相关的故障较少。TPC

    • 向后移植了 SPARK-26316 以提高性能。

  • 在亚马逊EMR版本 5.19.0、5.20.0 和 5.21.0 中,YARN节点标签存储在目录中。HDFS在某些情况下,这会导致核心节点启动延迟,然后导致集群超时和启动失败。从 Amazon EMR 5.22.0 开始,此问题已得到解决。YARN节点标签存储在每个群集节点的本地磁盘上,避免依赖于HDFS。

已知问题
  • Hue(已在亚马逊 5.24. EMR 0 版本中修复)

    • 在亚马逊上运行的 Hue EMR 不支持 Solr。从 Amazon 5.20.0 EMR 版本开始,配置错误问题会导致 Solr 被启用,并显示类似于以下内容的无害错误消息:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      要防止显示 Solr 错误消息:

      1. 使用连接到主节点命令行SSH。

      2. 使用文本编辑器打开 hue.ini 文件。例如:

        sudo vim /etc/hue/conf/hue.ini

      3. 搜索术语 appblacklist,并将该行修改为以下内容:

        appblacklist = search
      4. 保存更改并重新启动 Hue,如以下示例所示:

        sudo stop hue; sudo start hue
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

发布版本 5.21.1

以下发行说明包含有关亚马逊 5.21.1 EMR 版本的信息。更改与 5.21.0 有关。

首次发布日期:2019 年 7 月 18 日

更改、增强功能和解决的问题
  • 更新了亚马逊的默认 Amazon L AMI inux,EMR使其包含重要的 Linux 内核安全更新,包括TCPSACK拒绝服务问题 (AWS-2019-005)。

已知问题
  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.21.0

以下发行说明包含有关亚马逊 5.21. EMR 0 版本的信息。更改与 5.20.0 有关。

首次发布日期:2019 年 2 月 18 日

上次更新时间:2019 年 4 月 3 日

升级
  • Flink 1.7.0

  • Presto 0.215

  • Amazon SDK for Java 1.11.479

新功能
  • (2019 年 4 月 3 日)在 Amazon 5.21.0 及更高EMR版本中,您可以覆盖集群配置,并为正在运行的集群中的每个实例组指定其他配置分类。为此,您可以使用 Amazon EMR 控制台、 Amazon Command Line Interface (Amazon CLI) 或 Amazon SDK。有关更多信息,请参阅为运行的集群中的实例组提供配置

更改、增强功能和解决的问题
已知问题
  • Hue(已在亚马逊 5.24. EMR 0 版本中修复)

    • 在亚马逊上运行的 Hue EMR 不支持 Solr。从 Amazon 5.20.0 EMR 版本开始,配置错误问题会导致 Solr 被启用,并显示类似于以下内容的无害错误消息:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      要防止显示 Solr 错误消息:

      1. 使用连接到主节点命令行SSH。

      2. 使用文本编辑器打开 hue.ini 文件。例如:

        sudo vim /etc/hue/conf/hue.ini

      3. 搜索术语 appblacklist,并将该行修改为以下内容:

        appblacklist = search
      4. 保存更改并重新启动 Hue,如以下示例所示:

        sudo stop hue; sudo start hue
  • Tez

    • 此问题已在亚马逊 EMR 5.22.0 中修复。

      当你通过 http://连接到 Tez 用户界面时MasterDNS:8080/tez-ui 通过SSH连接到群集主节点,出现错误 “适配器操作失败-时间轴服务器 () ATS 遥不可及。要么已关闭,要么CORS出现 “未启用”,要么任务意外显示 N/A。

      这是由于 Tez UI 使用localhost而不是主节点的主机名向YARN时间轴服务器发出请求所致。解决方法:将脚本作为引导操作或步骤运行。脚本更新 Tez configs.env 文件中的主机名。有关更多信息以及脚本的位置信息,请参阅引导说明

  • 在亚马逊EMR版本 5.19.0、5.20.0 和 5.21.0 中,YARN节点标签存储在目录中。HDFS在某些情况下,这会导致核心节点启动延迟,然后导致集群超时和启动失败。从 Amazon EMR 5.22.0 开始,此问题已得到解决。YARN节点标签存储在每个群集节点的本地磁盘上,避免依赖于HDFS。

  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.20.0

以下发行说明包含有关亚马逊 5.20. EMR 0 版本的信息。更改与 5.19.0 有关。

首次发布日期:2018 年 12 月 18 日

上次更新时间:2019 年 1 月 22 日

升级
  • Flink 1.6.2

  • HBase1.4.8

  • Hive 2.3.4

  • Hue 4.3.0

  • MXNet1.3.1

  • Presto 0.214

  • Spark 2.4.0

  • TensorFlow 1.12.0

  • Tez 0.9.1

  • Amazon SDK for Java 1.11.461

新功能
  • (2019 年 1 月 22 日)亚马逊中的 Kerberos EMR 已得到改进,支持从外部对委托人进行身份验证。KDC这可以集中管理委托人,因为多个集群可以共享一个外部KDC集群。此外,外部KDC用户可以与 Active Directory 域建立跨领域信任。这使得所有集群可以从 Active Directory 对委托人进行身份验证。有关更多信息,请参阅《亚马逊EMR管理指南》中的 “使用 Kerberos 身份验证”。

更改、增强功能和解决的问题
  • 亚马逊的默认 Amazon AMI Linux EMR

    • Python 3 软件包已从 Python 3.4 升级到 3.6。

  • 经过 EMRFS S3 优化的提交者

  • Hive

  • 集成 Spark 和 Hive 的 Glue

    • 在 EMR 5.20.0 或更高版本中,当使用 G Amazon lue Data Catalog 作为元存储时,Spark 和 Hive 会自动启用并行分区修剪。此更改通过并行执行多个请求来检索分区,显著缩短查询计划时间。可同时执行的分段总数介于 1 到 10 之间。默认值为 5,这是建议的设置。您可以通过以下方式更改该值:指定 hive-site 配置分类中的属性 aws.glue.partition.num.segments。如果发生节流,则可以通过将值更改为 1 来关闭此功能。有关更多信息,请参阅 Amazon Glue 分段结构

已知问题
  • Hue(已在亚马逊 5.24. EMR 0 版本中修复)

    • 在亚马逊上运行的 Hue EMR 不支持 Solr。从 Amazon 5.20.0 EMR 版本开始,配置错误问题会导致 Solr 被启用,并显示类似于以下内容的无害错误消息:

      Solr server could not be contacted properly: HTTPConnectionPool('host=ip-xx-xx-xx-xx.ec2.internal', port=1978): Max retries exceeded with url: /solr/admin/info/system?user.name=hue&doAs=administrator&wt=json (Caused by NewConnectionError(': Failed to establish a new connection: [Errno 111] Connection refused',))

      要防止显示 Solr 错误消息:

      1. 使用连接到主节点命令行SSH。

      2. 使用文本编辑器打开 hue.ini 文件。例如:

        sudo vim /etc/hue/conf/hue.ini

      3. 搜索术语 appblacklist,并将该行修改为以下内容:

        appblacklist = search
      4. 保存更改并重新启动 Hue,如以下示例所示:

        sudo stop hue; sudo start hue
  • Tez

    • 此问题已在亚马逊 EMR 5.22.0 中修复。

      当你通过 http://连接到 Tez 用户界面时MasterDNS:8080/tez-ui 通过SSH连接到群集主节点,出现错误 “适配器操作失败-时间轴服务器 () ATS 遥不可及。要么已关闭,要么CORS出现 “未启用”,要么任务意外显示 N/A。

      这是由于 Tez UI 使用localhost而不是主节点的主机名向YARN时间轴服务器发出请求所致。解决方法:将脚本作为引导操作或步骤运行。脚本更新 Tez configs.env 文件中的主机名。有关更多信息以及脚本的位置信息,请参阅引导说明

  • 在亚马逊EMR版本 5.19.0、5.20.0 和 5.21.0 中,YARN节点标签存储在目录中。HDFS在某些情况下,这会导致核心节点启动延迟,然后导致集群超时和启动失败。从 Amazon EMR 5.22.0 开始,此问题已得到解决。YARN节点标签存储在每个群集节点的本地磁盘上,避免依赖于HDFS。

  • 具有多个主节点的集群和 Kerberos 身份验证中的已知问题

    如果您在 Amazon 5.20.0 及更高EMR版本中运行具有多个主节点和 Kerberos 身份验证的集群,则在集群运行一段时间后,集群操作可能会遇到问题,例如缩小规模或步骤提交。具体时间段取决于您定义的 Kerberos 票证有效期。缩减问题会影响您提交的自动缩减和显式缩减请求。其它集群操作也可能会受到影响。

    解决办法:

    • SSH以hadoop用户身份访问具有多个主节点的EMR群集的主主节点。

    • 运行以下命令,为 hadoop 用户续订 Kerberos 票证。

      kinit -kt <keytab_file> <principal>

      通常情况下,keytab 文件位于 /etc/hadoop.keytab,而 principal 为 hadoop/<hostname>@<REALM> 格式。

    注意

    此解决方法将在 Kerberos 票证有效期内生效。默认情况下,此持续时间为 10 个小时,但可以通过 Kerberos 设置进行配置。Kerberos 票证过期后,您必须重新运行上述命令。

版本 5.19.0

以下发行说明包含有关亚马逊 5.19. EMR 0 版本的信息。更改与 5.18.0 有关。

首次发布日期:2018 年 11 月 7 日

上次更新时间:2018 年 11 月 19 日

升级
  • Hadoop 2.8.5

  • Flink 1.6.1

  • JupyterHub 0.9.4

  • MXNet1.3.0

  • Presto 0.212

  • TensorFlow 1.11.0

  • Zookeeper 3.4.13

  • Amazon SDK for Java 1.11.433

新功能
  • (2018 年 11 月 19 日)EMR笔记本是一个基于 Jupyter Notebook 的托管环境。它支持 Spark PySpark、Spark R 和 Scala 的 Spark 魔法内核。SQLEMR笔记本可以与使用 Amazon EMR 版本 5.18.0 及更高版本创建的集群一起使用。有关更多信息,请参阅《Amazon EMR 管理指南》中的 “使用EMR笔记本”。

  • 使用 Spark 和 Parquet 文件写入 Parquet 文件时,可以使用 EMRFS S3 优化的提交器。EMRFS此提交程序改进了写入性能。有关更多信息,请参阅使用 EMRFS S3 优化的提交器

更改、增强功能和解决的问题
  • YARN

  • 亚马逊的默认 Amazon AMI Linux EMR

    • 默认情况下,不再安装 ruby18php56gcc48。如果需要,可以使用 yum 安装它们。

    • 默认情况下,不再安装 aws-sdk ruby gem。如果需要,可以使用 gem install aws-sdk 进行安装。此外,还可以安装特定组件。例如,gem install aws-sdk-s3

已知问题
  • EMR笔记本-在某些情况下,当多个笔记本编辑器处于打开状态时,笔记本编辑器可能无法连接到集群。如果发生这种情况,请清除浏览器 Cookie,然后重新打开笔记本编辑器。

  • CloudWatch ContainerPending 指标和自动缩放 —(在 5.20.0 中已修复)Amazon EMR 可能会发出负值。ContainerPending如果在自动伸缩规则中使用 ContainerPending,自动伸缩的行为方式可能会不符合预期。请避免在自动伸缩中使用 ContainerPending

  • 在亚马逊EMR版本 5.19.0、5.20.0 和 5.21.0 中,YARN节点标签存储在目录中。HDFS在某些情况下,这会导致核心节点启动延迟,然后导致集群超时和启动失败。从 Amazon EMR 5.22.0 开始,此问题已得到解决。YARN节点标签存储在每个群集节点的本地磁盘上,避免依赖于HDFS。

版本 5.18.0

以下发行说明包含有关亚马逊 5.18. EMR 0 版本的信息。更改与 5.17.0 有关。

首次发布日期:2018 年 10 月 24 日

升级
  • Flink 1.6.0

  • HBase1.4.7

  • Presto 0.210

  • Spark 2.3.2

  • Zeppelin 0.8.0

新功能
  • 从 Amazon EMR 5.18.0 开始,您可以使用 Amazon 构EMR件存储库针对特定亚马逊版本中提供的库和依赖项的确切版本构建任务代码。EMR有关更多信息,请参阅 使用 Amazon EMR 项目存储库检查依赖项

更改、增强功能和解决的问题

发布版本 5.17.1

以下发行说明包含有关亚马逊 5.17.1 EMR 版本的信息。更改与 5.17.0 有关。

首次发布日期:2019 年 7 月 18 日

更改、增强功能和解决的问题
  • 更新了亚马逊的默认 Amazon L AMI inux,EMR使其包含重要的 Linux 内核安全更新,包括TCPSACK拒绝服务问题 (AWS-2019-005)。

版本 5.17.0

以下发行说明包含有关亚马逊 5.17. EMR 0 版本的信息。更改与 5.16.0 有关。

首次发布日期:2018 年 8 月 30 日

升级
  • Flink 1.5.2

  • HBase1.4.6

  • Presto 0.206

新功能
  • 添加了对 Tensorflow 的支持。有关更多信息,请参阅TensorFlow

更改、增强功能和解决的问题
已知问题
  • 创建使用 Kerberos 的集群时,如果安装了 Livy,Livy 将失败,并显示未启用简单身份验证的错误。重新启动 Livy 服务器可解决此问题。解决方法是在集群创建过程中添加一个在主节点上运行 sudo restart livy-server 的步骤。

  • 如果你使用AMI基于亚马逊 Linux 的自定义 Amazon LinuxAMI,创建日期为 2018-08-11,Oozie 服务器将无法启动。如果你使用 Ooozie,请AMI根据创建日期不同的亚马逊 Linux AMI ID 创建自定义账号。您可以使用以下 Amazon CLI 命令返回所有 HVM Amazon Linux AMIs 版本为 2018.03 的图片IDs列表以及发布日期,以便您可以选择合适的 Amazon Linux AMI 作为基础。 MyRegion 替换为您的地区标识符,例如 us-west-2。

    aws ec2 --region MyRegion describe-images --owner amazon --query 'Images[?Name!=`null`]|[?starts_with(Name, `amzn-ami-hvm-2018.03`) == `true`].[CreationDate,ImageId,Name]' --output text | sort -rk1

版本 5.16.0

以下发行说明包含有关亚马逊 5.16. EMR 0 版本的信息。更改与 5.15.0 有关。

首次发布日期:2018 年 7 月 19 日

升级
  • Hadoop 2.8.4

  • Flink 1.5.0

  • Livy 0.5.0

  • MXNet1.2.0

  • Phoenix 4.14.0

  • Presto 0.203

  • Spark 2.3.1

  • Amazon SDK for Java 1.11.336

  • CUDA9.2

  • Redshift JDBC Driver 1.2.15.1025

更改、增强功能和解决的问题
已知问题
  • 此发行版不支持 c1.medium 或 m1.small 实例类型。使用这些实例类型的集群将无法启动。解决方法:指定其它实例类型或使用其它发行版。

  • 创建使用 Kerberos 的集群时,如果安装了 Livy,Livy 将失败,并显示未启用简单身份验证的错误。重新启动 Livy 服务器可解决此问题。解决方法是在集群创建过程中添加一个在主节点上运行 sudo restart livy-server 的步骤。

  • 在主节点重启或实例控制器重新启动后,将不会收集 CloudWatch 指标,并且自动扩展功能将在 Amazon EMR 版本 5.14.0、5.15.0 或 5.16.0 中不可用。此问题已在亚马逊 EMR 5.17.0 中修复。

版本 5.15.0

以下发行说明包含有关亚马逊 5.15. EMR 0 版本的信息。更改与 5.14.0 有关。

首次发布日期:2018 年 6 月 21 日

升级
  • 已升级HBase到 1.4.4

  • 已将 Hive 升级到 2.3.3

  • 已将 Hue 升级到 4.2.0

  • 已将 Oozie 升级到 5.0.0

  • 已将 Zookeeper 升级到 3.4.12

  • 已升级 Amazon SDK到 1.11.333

更改、增强功能和解决的问题
  • Hive

  • Hue

    • 更新了 Hue,启用 Kerberos 后可以使用 Livy 正确地进行身份验证。在亚马逊上使用 Kerberos 时,现在支持 Livy。EMR

  • JupyterHub

    • 已更新,以 JupyterHub 便 Amazon 默认EMR安装LDAP客户端库。

    • 修复了生成自签名凭证的脚本中的错误。

已知问题
  • 此发行版不支持 c1.medium 或 m1.small 实例类型。使用这些实例类型的集群将无法启动。解决方法:指定其它实例类型或使用其它发行版。

  • 在主节点重启或实例控制器重新启动后,将不会收集 CloudWatch 指标,并且自动扩展功能将在 Amazon EMR 版本 5.14.0、5.15.0 或 5.16.0 中不可用。此问题已在亚马逊 EMR 5.17.0 中修复。

版本 5.14.1

以下发行说明包含有关亚马逊 5.14.1 EMR 版本的信息。更改与 5.14.0 有关。

首次发布日期:2018 年 10 月 17 日

更新了 Amazon AMI 的默认设置EMR以解决潜在的安全漏洞。

版本 5.14.0

以下发行说明包含有关亚马逊 5.14. EMR 0 版本的信息。更改与 5.13.0 有关。

首次发布日期:2018 年 6 月 4 日

升级
  • 已将 Apache Flink 升级到 1.4.2

  • 将 Apache 升级MXnet到 1.1.0

  • 已将 Apache Sqoop 升级到 1.4.7

新功能
  • 增加了 JupyterHub 支持。有关更多信息,请参阅 JupyterHub

更改、增强功能和解决的问题
  • EMRFS

    • 对 Amazon S3 的请求中的 userAgent 字符串已更新为包含调用委托人的用户和组信息。这可以与 Amazon CloudTrail 日志一起使用,以实现更全面的请求跟踪。

  • HBase

    • 包括 HBASE-20447,它解决了可能导致缓存问题,尤其是在拆分区域的情况下。

  • MXnet

    • 新增了 OpenCV 库。

  • Spark

    • 当 Spark 使用将 Parquet 文件写入 Amazon S3 位置时EMRFS, FileOutputCommitter 算法已更新为使用版本 2 而不是版本 1。这将减少重命名的数量,从而提高应用程序性能。此更改不会影响:

      • Spark 以外的应用程序。

      • 写入其他文件系统的应用程序,例如HDFS(仍使用版本 1 FileOutputCommitter)。

      • 使用其他输出格式(例如文本或 csv)且已经使用EMRFS直接写入的应用程序。

已知问题
  • JupyterHub

    • 不支持在创建集群时使用配置分类来设置 JupyterHub 和单个 Jupyter 笔记本。手动编辑每个用户的 jupyterhub_config.py 文件和 jupyter_notebook_config.py 文件。有关更多信息,请参阅 正在配置 JupyterHub

    • JupyterHub 无法在私有子网内的群集上启动,失败并显示消息Error: ENOENT: no such file or directory, open '/etc/jupyter/conf/server.crt' 。这由生成自签名凭证的脚本中的错误所致。使用以下解决方法生成自签名凭证。在连接到主节点时执行所有命令。

      1. 将凭证生成脚本从容器复制到主节点:

        sudo docker cp jupyterhub:/tmp/gen_self_signed_cert.sh ./
      2. 使用文本编辑器更改第 23 行,将公有主机名更改为本地主机名,如下所示:

        local hostname=$(curl -s $EC2_METADATA_SERVICE_URI/local-hostname)
      3. 运行脚本,生成自签名凭证:

        sudo bash ./gen_self_signed_cert.sh
      4. 将脚本生成的凭证文件移至 /etc/jupyter/conf/ 目录:

        sudo mv /tmp/server.crt /tmp/server.key /etc/jupyter/conf/

      您可以通过tailjupyter.log文件来验证是否已 JupyterHub 重新启动并且正在返回 200 响应码。例如:

      tail -f /var/log/jupyter/jupyter.log

      该命令应返回与以下示例类似的响应:

      # [I 2018-06-14 18:56:51.356 JupyterHub app:1581] JupyterHub is now running at https://:9443/ # 19:01:51.359 - info: [ConfigProxy] 200 GET /api/routes
  • 在主节点重启或实例控制器重新启动后,将不会收集 CloudWatch 指标,并且自动扩展功能将在 Amazon EMR 版本 5.14.0、5.15.0 或 5.16.0 中不可用。此问题已在亚马逊 EMR 5.17.0 中修复。

版本 5.13.0

以下发行说明包含有关亚马逊 5.13.0 EMR 版本的信息。更改与 5.12.0 有关。

升级
  • 已将 Spark 升级到 2.3.0

  • 已升级HBase到 1.4.2

  • 已将 Presto 升级到 0.194

  • 已升级 Amazon SDK for Java 到 1.11.297

更改、增强功能和解决的问题
  • Hive

    • 向后移植 HIVE-15436。增强了 HiveAPIs,仅返回视图。

已知问题
  • MXNet目前没有 OpenCV 库。

版本 5.12.2

以下发行说明包含有关亚马逊 5.12.2 EMR 版本的信息。更改与 5.12.1 有关。

首次发布日期:2018年 8 月 29 日

更改、增强功能和解决的问题
  • 此版本解决了潜在的安全漏洞。

版本 5.12.1

以下发行说明包含有关亚马逊 5.12.1 EMR 版本的信息。更改与 5.12.0 有关。

首次发布日期:2018 年 3 月 29 日

更改、增强功能和解决的问题
  • 更新了亚马逊 Linux 版的亚马逊 defaultAmazon Linux AMI 内核EMR以修复潜在漏洞。

版本 5.12.0

以下发行说明包含有关亚马逊 5.12.0 EMR 版本的信息。更改与 5.11.1 有关。

升级
更改、增强功能和解决的问题
  • Hadoop

    • yarn.resourcemanager.decommissioning.timeout 属性已更改为 yarn.resourcemanager.nodemanager-graceful-decommission-timeout-secs。您可以使用此属性自定义集群缩减。有关更多信息,请参阅 A mazon EMR 管理指南中的集群缩容

    • Hadoop 在cp(复制)命令中CLI添加了该-d选项,该命令指定了直接复制。可以使用它来避免创建中间 .COPYING 文件,这加快了在 Amazon S3 之间复制数据的速度。有关更多信息,请参阅 HADOOP-12384

  • Pig

    • 添加了 pig-env 配置分类,这简化了 Pig 环境属性的配置。有关更多信息,请参阅配置应用程序

  • Presto

    • 新增 presto-connector-redshift 配置分类,您可以将其用于配置 Presto redshift.properties 配置文件中的值。有关更多信息,请参阅 Presto 文档中 Redshift 连接器以及 配置应用程序

    • EMRFS已添加对 Presto 的支持,这是默认配置。亚马逊早期EMR版本使用的是PrestoS3FileSystem,这是唯一的选择。有关更多信息,请参阅 EMRFS和 Presto FileSystem S3 配置

      注意

      如果您使用亚马逊EMR版本 5.12.0 在 Amazon S3 中查询基础数据,则可能会出现 Presto 错误。这是因为 Presto 无法从 emrfs-site.xml 提取配置分类值。解决方法是在 usr/lib/presto/plugin/hive-hadoop2/ 下创建一个 emrfs 子目录,并在 usr/lib/presto/plugin/hive-hadoop2/emrfs 中创建一个指向现有 /usr/share/aws/emr/emrfs/conf/emrfs-site.xml 文件的符号链接。然后重新启动 presto-server 进程(首先执行 sudo presto-server stop,然后执行 sudo presto-server start)。

  • Spark

已知问题
  • MXNet不包括 OpenCV 库。

  • SparkR 不适用于使用自定义创建的集群,因为默认情况下 AMI R 未安装在群集节点上。

发布版本 5.11.3

以下发行说明包含有关亚马逊 5.11.3 EMR 版本的信息。更改与 5.11.2 有关。

首次发布日期:2019 年 7 月 18 日

更改、增强功能和解决的问题
  • 更新了亚马逊的默认 Amazon L AMI inux,EMR使其包含重要的 Linux 内核安全更新,包括TCPSACK拒绝服务问题 (AWS-2019-005)。

版本 5.11.2

以下发行说明包含有关亚马逊 5.11.2 EMR 版本的信息。更改与 5.11.1 有关。

首次发布日期:2018年 8 月 29 日

更改、增强功能和解决的问题
  • 此版本解决了潜在的安全漏洞。

版本 5.11.1

以下发行说明包含 Amazon EMR 版本 5.11.1 版本的信息。更改与亚马逊 EMR 5.11.0 版本有关。

首次发布日期:2018 年 1 月 22 日

更改、增强功能和解决的问题

已知问题

  • MXNet不包括 OpenCV 库。

  • 默认情况下,Hive 2.3.2 设置 hive.compute.query.using.stats=true。这会导致查询从现有统计数据而不是直接从数据中获取数据,这可能会造成混淆。例如,如果您有一个包含 hive.compute.query.using.stats=true 的表并且将新文件上载到表 LOCATION,则在该表上运行 SELECT COUNT(*) 查询会返回来自统计数据的计数,而不是选择已添加的行。

    作为解决方法,请使用 ANALYZE TABLE 命令收集新的统计数据,或者设置 hive.compute.query.using.stats=false。有关更多信息,请参阅 Apache Hive 文档中的 Hive 中的统计数据

版本 5.11.0

以下发行说明包含 Amazon EMR 版本 5.11.0 版本的信息。更改与亚马逊 EMR 5.10.0 版本有关。

升级

以下应用程序和组件已在此版本中进行升级以包含以下版本。

  • Hive 2.3.2

  • Spark 2.2.1

  • SDK适用于 Java 1.11.238

新功能

  • Spark

    • 增加了 spark.decommissioning.timeout.threshold 设置,这将改进使用竞价型实例时的 Spark 停用行为。有关更多信息,请参阅 配置节点停用行为

    • 在 Spark 中添加了aws-sagemaker-spark-sdk组件,它安装了 Amazon SageMaker Spark 以及与 Spark 与亚马逊集成的相关依赖项 SageMaker。你可以使用 Amazon SageMaker Spark 通过亚马逊 SageMaker 阶段构建 Spark 机器学习 (ML) 管道。有关更多信息,请参阅《亚马逊 SageMaker 开发者指南》中的 SageMaker Spark 自述文件 GitHub 和 SageMaker在亚马逊上使用 Apache Spark

已知问题

  • MXNet不包括 OpenCV 库。

  • 默认情况下,Hive 2.3.2 设置 hive.compute.query.using.stats=true。这会导致查询从现有统计数据而不是直接从数据中获取数据,这可能会造成混淆。例如,如果您有一个包含 hive.compute.query.using.stats=true 的表并且将新文件上载到表 LOCATION,则在该表上运行 SELECT COUNT(*) 查询会返回来自统计数据的计数,而不是选择已添加的行。

    作为解决方法,请使用 ANALYZE TABLE 命令收集新的统计数据,或者设置 hive.compute.query.using.stats=false。有关更多信息,请参阅 Apache Hive 文档中的 Hive 中的统计数据

版本 5.10.0

以下发行说明包含 Amazon EMR 版本 5.10.0 版本的信息。更改与 Amazon EMR 5.9.0 版本有关。

升级

以下应用程序和组件已在此版本中进行升级以包含以下版本。

  • Amazon SDK for Java 1.11.221

  • Hive 2.3.1

  • Presto 0.187

新功能

  • 添加了对 Kerberos 身份验证的支持。有关更多信息,请参阅《亚马逊EMR管理指南》中的 “使用 Kerberos 身份验证

  • 为向 Amazon S3 发EMRFS出的请求添加了对IAM角色的支持。有关更多信息,请参阅《亚马逊EMR管理指南》中的为向 Amazon S3 发出的EMRFS请求配置IAM角色

  • 增加了对GPU基于 P2 和 P3 的实例类型的支持。有关更多信息,请参阅亚马逊 EC2 P2 实例亚马逊 EC2 P3 实例。NVIDIA默认情况下,驱动程序 384.81 和CUDA驱动程序 9.0.176 安装在这些实例类型上。

  • 增加了对 Apache MXNet 的支持。

更改、增强功能和解决的问题

  • Presto

  • Spark

    • 向后移植了 SPARK-20640,这使得使用和属性配置 rpc 超时和洗牌注册值的重试次数。spark.shuffle.registration.timeout spark.shuffle.registration.maxAttempts

    • 向后移植 SPARK-21549,它更正了将自定义 OutputFormat 写入非位置时出现的错误。HDFS

  • 已逆向移植 Hadoop 13270

  • Numpy、Scipy 和 Matplotlib 库已从亚马逊基础库中删除。EMR AMI如果您的应用程序需要这些库,应用程序存储库中提供了它们,因此您可以通过引导操作使用 yum install 在所有节点上安装它们。

  • Amazon EMR 基础AMI不再包含应用程序RPM包,因此这些RPM软件包不再存在于集群节点上。Custom AMIs 和 Amazon EMR 基础AMI现在引用 Amazon S3 中的RPM软件包存储库。

  • 由于 Amazon 引入了按秒计费EC2,因此默认的缩减行为现在是任务完成时终止,而不是在实例时间终止。有关更多信息,请参阅配置集群缩减

已知问题

  • MXNet不包括 OpenCV 库。

  • 默认情况下,Hive 2.3.1 设置 hive.compute.query.using.stats=true。这会导致查询从现有统计数据而不是直接从数据中获取数据,这可能会造成混淆。例如,如果您有一个包含 hive.compute.query.using.stats=true 的表并且将新文件上载到表 LOCATION,则在该表上运行 SELECT COUNT(*) 查询会返回来自统计数据的计数,而不是选择已添加的行。

    作为解决方法,请使用 ANALYZE TABLE 命令收集新的统计数据,或者设置 hive.compute.query.using.stats=false。有关更多信息,请参阅 Apache Hive 文档中的 Hive 中的统计数据

版本 5.9.0

以下发行说明包含 Amazon 5.9.0 EMR 版本的信息。更改与 Amazon EMR 5.8.0 版本有关。

发布日期:2017 年 10 月 5 日

最近功能更新时间:2017 年 10 月 12 日

升级

以下应用程序和组件已在此版本中进行升级以包含以下版本。

  • Amazon SDK for Java 版本 1.11.183

  • Flink 1.3.2

  • Hue 4.0.1

  • Pig 0.17.0

  • Presto 0.184

新功能

  • 添加了 Livy 支持 (0.4.0-incubating 版)。有关更多信息,请参阅Apache Livy

  • 添加了对 Hue Notebook for Spark 的支持。

  • 增加了对 i3 系列亚马逊EC2实例的支持(2017 年 10 月 12 日)。

更改、增强功能和解决的问题

  • Spark

    • 添加了一组新功能,有助于确保 Spark 能够更为正常地处理因手动调整大小或自动扩展策略请求导致的节点终止。有关更多信息,请参阅 配置节点停用行为

    • SSL用于区块传输服务的传输中加密,而不是 3DES,当使用带 AES-NI 的 Amazon EC2 实例类型时,这可以提高性能。

    • 向后移植 SPARK-21494

  • Zeppelin

  • HBase

    • 添加了 HBASE-18533 补丁,它允许使用HBase BucketCache 配置分类为配置提供其他值。hbase-site

  • Hue

    • 为 H Amazon ue 中的 Hive 查询编辑器添加了 Glue 数据目录支持。

    • 默认情况下,Hue 中的超级用户可以访问允许 Amazon EMR IAM 角色访问的所有文件。新建用户不会自动拥有对 Amazon S3 filebrowser 的访问权限,并且必须为其组启用 filebrowser.s3_access 权限。

  • 解决了导致无法访问使用 Amazon Glue 数据目录创建的底层JSON数据的问题。

已知问题

  • 当所有应用程序都安装完毕并且默认的 Amazon EBS 根卷大小未更改时,集群启动失败。要解决这个问题,请使用中的aws emr create-cluster命令 Amazon CLI 并指定一个更大的--ebs-root-volume-size参数。

  • 默认情况下,Hive 2.3.0 设置 hive.compute.query.using.stats=true。这会导致查询从现有统计数据而不是直接从数据中获取数据,这可能会造成混淆。例如,如果您有一个包含 hive.compute.query.using.stats=true 的表并且将新文件上载到表 LOCATION,则在该表上运行 SELECT COUNT(*) 查询会返回来自统计数据的计数,而不是选择已添加的行。

    作为解决方法,请使用 ANALYZE TABLE 命令收集新的统计数据,或者设置 hive.compute.query.using.stats=false。有关更多信息,请参阅 Apache Hive 文档中的 Hive 中的统计数据

版本 5.8.2

以下发行说明包含有关亚马逊 5.8.2 EMR 版本的信息。更改与 5.8.1 有关。

首次发布日期:2018 年 3 月 29 日

更改、增强功能和解决的问题
  • 更新了亚马逊 Linux 版的亚马逊 defaultAmazon Linux AMI 内核EMR以修复潜在漏洞。

版本 5.8.1

以下发行说明包含 Amazon EMR 版本 5.8.1 版本的信息。更改与 Amazon EMR 5.8.0 版本有关。

首次发布日期:2018 年 1 月 22 日

更改、增强功能和解决的问题

版本 5.8.0

以下发行说明包含 Amazon EMR 版本 5.8.0 版本的信息。更改与 Amazon EMR 5.7.0 版本有关。

首次发布日期:2017 年 8 月 10 日

最近功能更新时间:2017 年 9 月 25 日

升级

以下应用程序和组件已在此版本中进行升级以包含以下版本:

  • Amazon SDK1.11.160

  • Flink 1.3.1

  • Hive 2.3.0。有关更多信息,请参阅 Apache Hive 站点上的发布说明

  • Spark 2.2.0。有关更多信息,请参阅 Apache Spark 站点上的发布说明

新功能

  • 添加了对查看应用程序历史记录的支持 (2017 年 9 月 25 日)。有关更多信息,请参阅《Amazon EMR 管理指南》中的查看应用程序历史记录

更改、增强功能和解决的问题

已知问题

  • 当所有应用程序都安装完毕并且默认的 Amazon EBS 根卷大小未更改时,集群启动失败。要解决这个问题,请使用中的aws emr create-cluster命令 Amazon CLI 并指定一个更大的--ebs-root-volume-size参数。

  • 默认情况下,Hive 2.3.0 设置 hive.compute.query.using.stats=true。这会导致查询从现有统计数据而不是直接从数据中获取数据,这可能会造成混淆。例如,如果您有一个包含 hive.compute.query.using.stats=true 的表并且将新文件上载到表 LOCATION,则在该表上运行 SELECT COUNT(*) 查询会返回来自统计数据的计数,而不是选择已添加的行。

    作为解决方法,请使用 ANALYZE TABLE 命令收集新的统计数据,或者设置 hive.compute.query.using.stats=false。有关更多信息,请参阅 Apache Hive 文档中的 Hive 中的统计数据

  • Spark – 在使用 Spark 时,apppusher 进程守护程序存在文件处理程序泄漏问题,长时间运行的 Spark 任务在几个小时或几天后可能会出现此情况。要解决此问题,请连接到主节点并键入 sudo /etc/init.d/apppusher stop。这将停止 appusher 守护程序,亚马逊EMR将自动重启该守护程序。

  • 应用程序历史记录

    • 死 Spark 执行程序的历史数据不可用。

    • 应用程序历史记录对使用安全配置来启用传输中加密的集群不可用。

版本 5.7.0

以下发行说明包含 Amazon EMR 5.7.0 版本的信息。更改与 Amazon EMR 5.6.0 版本有关。

发布日期:2017 年 7 月 13 日

升级

  • Flink 1.3.0

  • Phoenix 4.11.0

  • Zeppelin 0.7.2

新功能

  • 增加了在创建集群AMI时指定自定义 Amazon Linux 的功能。有关更多信息,请参阅使用自定义AMI

更改、增强功能和解决的问题

  • HBase

    • 增加了配置HBase只读副本集群的功能。请参阅使用只读副本集群

    • 多个错误修复和增强功能

  • Presto – 添加了配置 node.properties 的功能。

  • YARN-增加了配置功能 container-log4j.properties

  • Sqoop-向后移植的 SQOOP-2880,它引入了一个允许你设置 Sqoop 临时目录的参数。

版本 5.6.0

以下发行说明包含 Amazon EMR 5.6.0 版本的信息。更改与亚马逊 EMR 5.5.0 版本有关。

发布日期:2017 年 6 月 5 日

升级

  • Flink 1.2.1

  • HBase1.3.1

  • Mahout 0.13.0。这是第一个在亚马逊 5.0 及更高版本中支持 Spark 2.x 的 Mahout EMR 版本。

  • Spark 2.1.1

更改、增强功能和解决的问题

  • Presto

    • 通过使用TLS安全配置启用传输中加密,增加了在 Presto 节点之间启用 SSL /安全通信的功能。有关更多信息,请参阅传输中的数据加密

    • 已逆向移植 Presto 7661,它向 EXPLAIN ANALYZE 语句添加了 VERBOSE 选项,以报告有关查询计划的更详细、高低级别的统计数据。

版本 5.5.3

以下发行说明包含有关亚马逊 5.5.3 EMR 版本的信息。更改与 5.5.2 有关。

首次发布日期:2018年 8 月 29 日

更改、增强功能和解决的问题
  • 此版本解决了潜在的安全漏洞。

版本 5.5.2

以下发行说明包含 Amazon EMR 版本 5.5.2 的信息。更改与 5.5.1 有关。

首次发布日期:2018 年 3 月 29 日

更改、增强功能和解决的问题
  • 更新了亚马逊 Linux 版的亚马逊 defaultAmazon Linux AMI 内核EMR以修复潜在漏洞。

版本 5.5.1

以下发行说明包含有关 Amazon EMR 5.5.1 版本的信息。更改与亚马逊 EMR 5.5.0 版本有关。

首次发布日期:2018 年 1 月 22 日

更改、增强功能和解决的问题

版本 5.5.0

以下发行说明包含有关 Amazon EMR 5.5.0 版本的信息。更改与亚马逊 EMR 5.4.0 版本有关。

发布日期:2017 年 4 月 26 日

升级

  • Hue 3.12

  • Presto 0.170

  • Zeppelin 0.7.1

  • ZooKeeper 3.4.10

更改、增强功能和解决的问题

  • Spark

  • Flink

    • Flink 现在使用 Scala 2.11 进行构建。如果您使用 Scala API 和库,我们建议您在项目中使用 Scala 2.11。

    • 解决了 HADOOP_CONF_DIRYARN_CONF_DIR 默认值未正确设置,因此 start-scala-shell.sh 无法工作的问题。此外,还添加了使用 env.hadoop.conf.direnv.yarn.conf.dir 配置类别中的 /etc/flink/conf/flink-conf.yamlflink-conf 设置这些值的功能。

    • 引入了一个新的EMR特定于命令flink-scala-shell的封装器。start-scala-shell.sh我们建议使用此命令而不是 start-scala-shell。新命令可简化执行。例如,flink-scala-shell -n 2 将使用任务并行度 2 启动 Flink Scala Shell。

    • 引入了一个新的EMR特定于命令flink-yarn-session的封装器。yarn-session.sh我们建议使用此命令而不是 yarn-session。新命令可简化执行。例如,flink-yarn-session -d -n 2 将使用两个任务管理器在分离状态下启动长时间运行的 Flink 会话。

    • 已解决 (FLINK-6125) Commons httpclient 在 Flink 1.2 中不再有阴影。

  • Presto

    • 增加了对LDAP身份验证的支持。在亚马逊上LDAP与 Presto 一起使用EMR需要启用 Presto 协调器的HTTPS访问权限(http-server.https.enabled=true中)。config.properties有关配置的详细信息,请参阅 Presto 文档中的LDAP身份验证

    • 增加了对 SHOW GRANTS 的支持。

  • 亚马逊 EMR Base Linux AMI

    • 亚马逊EMR发布的版本现在基于亚马逊 Linux 2017.03。有关更多信息,请参阅亚马逊 Linux AMI 2017.03 发行说明

    • 从亚马逊EMR基本 Linux 镜像中移除了 Python 2.6。默认安装 Python 2.7 和 3.4。如果需要,您可以手动安装 Python 2.6。

版本 5.4.0

以下发行说明包含 Amazon EMR 5.4.0 版本的信息。更改与亚马逊 EMR 5.3.0 版本有关。

发布日期:2017 年 3 月 8 日

升级

此版本提供以下升级:

  • 已升级到 Flink 1.2.0

  • 已升级到 Hbase 1.3.0

  • 已升级到 Phoenix 4.9.0

    注意

    如果您从亚马逊的早期版本升级EMR到亚马逊版本 5.4.0 或更高EMR版本并使用二级索引,请按照 A pache Phoenix 文档中的说明升级本地索引。Amazon 从hbase-site分类中EMR删除了所需的配置,但需要重新填充索引。支持在线和离线升级索引。在线升级为默认值,这意味着,在从版本 4.8.0 或更高版本的 Phoenix 客户端初始化时重新填充索引。要指定离线升级,请在phoenix-site分类中将phoenix.client.localIndexUpgrade配置设置为 false,然后SSH将配置设置为要运行的主节点psql [zookeeper] -1

  • 已升级到 Presto 0.166

  • 已升级到 Zeppelin 0.7.0

更改和增强功能

以下是对亚马逊EMR发布标签 emr-5.4.0 的版本所做的更改:

版本 5.3.1

以下发行说明包含 Amazon EMR 5.3.1 版本的信息。更改与亚马逊 EMR 5.3.0 版本有关。

发布日期:2017 年 2 月 7 日

对向后移植齐柏林飞艇补丁进行了细微的更改,并更新了亚马逊的默认补丁。AMI EMR

版本 5.3.0

以下发行说明包含 Amazon EMR 5.3.0 版本的信息。更改与 Amazon EMR 5.2.1 版本有关。

发布日期:2017 年 1 月 26 日

升级

此版本提供以下升级:

  • 已升级到 Hive 2.1.1

  • 已升级到 Hue 3.11.0

  • 已升级到 Spark 2.1.0

  • 已升级到 Oozie 4.3.0

  • 已升级到 Flink 1.1.4

更改和增强功能

以下是对亚马逊EMR发布的版本标签 emr-5.3.0 所做的更改:

  • Hue 新增补丁可使您使用 interpreters_shown_on_wheel 设置配置解释器在笔记本选择轮盘上最先显示的内容,而不受 hue.ini 文件中排序的限制。

  • 新增 hive-parquet-logging 配置分类,您可以将其用于配置 Hive parquet-logging.properties 文件中的值。

版本 5.2.2

以下发行说明包含 Amazon EMR 5.2.2 版本的信息。更改与 Amazon EMR 5.2.1 版本有关。

发布日期:2017 年 5 月 2 日

早期版本中已解决的已知问题

  • 向后移植 SPARK-194459,它解决了从包含 char/varchar ORC 列的表中读取可能失败的问题。

版本 5.2.1

以下发行说明包含 Amazon EMR 5.2.1 版本的信息。更改与亚马逊 EMR 5.2.0 版本有关。

发布日期:2016 年 12 月 29 日

升级

此版本提供以下升级:

  • 已升级到 Presto 0.157.1。有关更多信息,请参阅 Presto 文档中的 Presto 发布说明

  • 已升级到 Zookeeper 3.4.9。有关更多信息,请参阅 Apache ZooKeeper 文档中的ZooKeeper 发行说明

更改和增强功能

以下是对亚马逊EMR发布的版本标签 emr-5.2.1 所做的更改:

  • 在亚马逊 4.8.3 及更高EMR版本中增加了对亚马逊 EC2 m4.16xlarge 实例类型的支持,不包括 5.0.0、5.0.3 和 5.2.0。

  • 亚马逊EMR发布的版本现在基于亚马逊 Linux 2016.09。有关更多信息,请参阅 https://www.amazonaws.cn/amazon-linux-ami/2016.09-release-notes/

  • 现在,Flink 和YARN配置路径的位置是默认设置的/etc/default/flink,因为您无需设置环境变量FLINK_CONF_DIR,运行flinkyarn-session.sh驱动脚本即可启动 Flink 作业。HADOOP_CONF_DIR

  • 增加了对 FlinkKinesisConsumer 类的支持。

早期版本中已解决的已知问题

  • 修复了 Hadoop 中的一个问题,即由于在大型集群中复制和删除同一文件之间存在竞争, ReplicationMonitor 线程可能会长时间卡住。

  • 修复了任务状态未成功更新时 ControlledJob # toString 失败并出现空指针异常 (NPE) 的问题。

版本 5.2.0

以下发行说明包含 Amazon EMR 5.2.0 版本的信息。更改与亚马逊 EMR 5.1.0 版本有关。

发布日期:2016 年 11 月 21 日

更改和增强功能

此版本中提供了以下更改和增强功能:

  • 为添加了 Amazon S3 存储模式HBase。

  • 允许您为 r HBase ootdir 指定 Amazon S3 的位置。有关更多信息,请参阅 Amaz HBase on S3

升级

此版本提供以下升级:

  • 已升级到 Spark 2.0.2

早期版本中已解决的已知问题

  • 修复了EBS仅限实例类型的 /mnt 限制为 2 TB 的问题。

  • 修复了输出到相应的 .out 文件而不是常规 log4j 配置的 .log 文件 (每小时转动一次) 的 instance-controller 和 logpusher 日志的问题。.out 文件不会轮换,因此这最终将填满 /emr 分区。此问题仅影响硬件虚拟机 (HVM) 实例类型。

版本 5.1.0

以下发行说明包含 Amazon EMR 5.1.0 版本的信息。更改与 Amazon EMR 5.0.0 版本有关。

发布日期:2016 年 11 月 3 日

更改和增强功能

此版本中提供了以下更改和增强功能:

  • 增加了对 Flink 1.1.3 的支持。

  • Presto 已作为 Hue 的记事本部分中的选项添加。

升级

此版本提供以下升级:

  • 已升级到 HBase 1.2.3

  • 已升级到 Zeppelin 0.6.2

早期版本中已解决的已知问题

  • 修复了 Amazon S3 上的 Tez 查询问题,其中ORC文件表现不如早期的 Amazon EMR 4.x 版本。

版本 5.0.3

以下发行说明包含 Amazon EMR 5.0.3 版本的信息。更改与 Amazon EMR 5.0.0 版本有关。

发布日期:2016 年 10 月 24 日

升级

此版本提供以下升级:

  • 已升级到 Hadoop 2.7.3

  • 已升级到 Presto 0.152.3,它包括对 Presto Web 界面的支持。可使用端口 8889 访问 Presto 协调器上的 Presto Web 界面。有关 Presto Web 界面的更多信息,请参阅 Presto 文档中的 Web 界面

  • 已升级到 Spark 2.0.1

  • 亚马逊EMR发布的版本现在基于亚马逊 Linux 2016.09。有关更多信息,请参阅 https://www.amazonaws.cn/amazon-linux-ami/2016.09-release-notes/

版本 5.0.0

发布日期:2016 年 7 月 27 日

升级

此版本提供以下升级:

  • 已升级到 Hive 2.1

  • 已升级到 Presto 0.150

  • 已升级到 Spark 2.0

  • 已升级到 Hue 3.10.0

  • 已升级到 Pig 0.16.0

  • 已升级到 Tez 0.8.4

  • 已升级到 Zeppelin 0.6.1

更改和增强功能

以下是对亚马逊EMR发布的版本标签 emr-5.0.0 或更高版本所做的更改:

  • 亚马逊EMR支持 Hive(版本 2.1)和 Pig(版本 0.16.0)的最新开源版本。如果您过去曾EMR在亚马逊上使用过 Hive 或 Pig,这可能会影响某些用例。有关更多信息,请参阅 HivePig

  • Hive 和 Pig 的默认执行引擎现在是 Tez。要更改该设置,您可以在 hive-sitepig-properties 配置分类中分别编辑相应的值。

  • 添加了增强型步骤调试功能,可让您查看步骤失败的根本原因 (如果服务可以确定原因)。有关更多信息,请参阅 Amazon EMR 管理指南中的增强型步骤调试

  • 先前以“-Sandbox”结尾的应用程序不再拥有该后缀。这可能会中断您的自动化,例如,如果您使用脚本来启动具有这些应用程序的集群。下表显示了亚马逊 EMR 4.7.2 与亚马逊 EMR 5.0.0 中的应用程序名称。

    应用程序名称更改
    亚马逊 EMR 4.7.2 亚马逊 EMR 5.0.0
    Oozie-Sandbox Oozie
    Presto-Sandbox Presto
    Sqoop-Sandbox Sqoop
    Zeppelin-Sandbox Zeppelin
    ZooKeeper-沙箱 ZooKeeper
  • Spark 现在针对 Scala 2.11 进行编译。

  • Java 8 现在是默认设置JVM。所有应用程序均使用 Java 8 runtime 运行。对任何应用程序的字节代码目标都没有进行更改。大多数应用程序继续运行 Java 7。

  • Zeppelin 现在包括身份验证功能。有关更多信息,请参阅 Zeppelin

  • 添加了对安全配置的支持,这使您可以更轻松地创建和应用加密选项。有关更多信息,请参阅数据加密

版本 4.9.5

以下发行说明包含有关亚马逊 4.9.5 EMR 版本的信息。更改与 4.9.4 有关。

首次发布日期:2018年 8 月 29 日

更改、增强功能和解决的问题
  • HBase

    • 此版本解决了潜在的安全漏洞。

版本 4.9.4

以下发行说明包含有关亚马逊 4.9.4 EMR 版本的信息。更改与 4.9.3 有关。

首次发布日期:2018 年 3 月 29 日

更改、增强功能和解决的问题
  • 更新了亚马逊 Linux 版的亚马逊 defaultAmazon Linux AMI 内核EMR以修复潜在漏洞。

版本 4.9.3

以下发行说明包含 Amazon EMR 4.9.3 版本的信息。更改与 Amazon EMR 4.9.2 版本有关。

首次发布日期:2018 年 1 月 22 日

更改、增强功能和解决的问题

版本 4.9.2

以下发行说明包含 Amazon EMR 4.9.2 版本的信息。更改与 Amazon EMR 4.9.1 版本有关。

发布日期:2017 年 7 月 13 日

此版本略微进行了一些改动、错误修复和增强。

版本 4.9.1

以下发行说明包含 Amazon EMR 4.9.1 版本的信息。更改与 Amazon EMR 4.8.4 版本有关。

发布日期:2017 年 4 月 10 日

早期版本中已解决的已知问题

  • HIVE-9976 和- 10106 的向后移植 HIVE

  • 修复了大量节点(大于 2,000)和容器(大于 5,000)会导致内存不足错误的问题,例如:"Exception in thread 'main' java.lang.OutOfMemoryError"。YARN

更改和增强功能

以下是对亚马逊EMR发布的版本标签 emr-4.9.1 所做的更改:

版本 4.8.4

以下发行说明包含 Amazon EMR 4.8.4 版本的信息。更改与 Amazon EMR 4.8.3 版本有关。

发布日期:2017 年 2 月 7 日

此版本略微进行了一些改动、错误修复和增强。

版本 4.8.3

以下发行说明包含 Amazon EMR 4.8.3 版本的信息。更改与亚马逊 EMR 4.8.2 版本有关。

发布日期:2016 年 12 月 29 日

升级

此版本提供以下升级:

  • 已升级到 Presto 0.157.1。有关更多信息,请参阅 Presto 文档中的 Presto 发布说明

  • 已升级到 Spark 1.6.3。有关更多信息,请参阅 Apache Spark 文档中的 Spark 发布说明

  • 已升级到 ZooKeeper 3.4.9。有关更多信息,请参阅 Apache ZooKeeper 文档中的ZooKeeper 发行说明

更改和增强功能

以下是对亚马逊EMR发布的版本标签 emr-4.8.3 所做的更改:

早期版本中已解决的已知问题

  • 修复了 Hadoop 中的一个问题,即由于在大型集群中复制和删除同一文件之间存在竞争, ReplicationMonitor 线程可能会长时间卡住。

  • 修复了任务状态未成功更新时 ControlledJob # toString 失败并出现空指针异常 (NPE) 的问题。

版本 4.8.2

以下发行说明包含 Amazon EMR 4.8.2 版本的信息。更改与 Amazon EMR 4.8.0 版本有关。

发布日期:2016 年 10 月 24 日

升级

此版本提供以下升级:

  • 已升级到 Hadoop 2.7.3

  • 已升级到 Presto 0.152.3,它包括对 Presto Web 界面的支持。可使用端口 8889 访问 Presto 协调器上的 Presto Web 界面。有关 Presto Web 界面的更多信息,请参阅 Presto 文档中的 Web 界面

  • 亚马逊EMR发布的版本现在基于亚马逊 Linux 2016.09。有关更多信息,请参阅 https://www.amazonaws.cn/amazon-linux-ami/2016.09-release-notes/

版本 4.8.0

发布日期:2016 年 9 月 7 日

升级

此版本提供以下升级:

  • 已升级到 HBase 1.2.2

  • 已升级到 Presto-Sandbox 0.151

  • 已升级到 Tez 0.8.4

  • 已升级到 Zeppelin-Sandbox 0.6.1

更改和增强功能

以下是对亚马逊EMR发布的版本标签 emr-4.8.0 所做的更改:

  • YARN修复了 ApplicationMaster 尝试清理因实例已终止而不再存在的容器的问题。

  • 在 Oozie 示例中更正了 Hive-server2 URL 的 Hive2 动作。

  • 添加了对其它 Presto 目录的支持。

  • 向后移植的补丁:HIVE-8948、- 12679、-13405、HIVE-3116、-12689 HIVE PHOENIX HADOOP

  • 添加了对安全配置的支持,这使您可以更轻松地创建和应用加密选项。有关更多信息,请参阅数据加密

版本 4.7.2

以下发行说明包含亚马逊 EMR 4.7.2 的信息。

发布日期:2016 年 7 月 15 日

功能

此版本提供以下功能:

  • 已升级到 Mahout 0.12.2

  • 已升级到 Presto 0.148

  • 已升级到 Spark 1.6.2

  • 现在,您可以使用 a URI 作为参数来创建 “以 AWSCredentialsProvider 供EMRFS使用”。有关更多信息,请参阅 AWSCredentialsProvider 为创建EMRFS

  • EMRFS现在允许用户使用中的属性为其一致视图元数据配置自定义 DynamoDB 终端节点。fs.s3.consistent.dynamodb.endpoint emrfs-site.xml

  • /usr/bin 中添加了一个名为 spark-example 的脚本,它将包装 /usr/lib/spark/spark/bin/run-example,因此您可以直接运行示例。例如,要运行 Spark 发行版附带的 SparkPi 示例,可以spark-example SparkPi 100从命令行运行,也可以command-runner.jar将其用作中的一个步骤API。

早期版本中已解决的已知问题

  • 修复了 Oozie 在安装 Spark 后拥有的 spark-assembly.jar 未位于正确位置 (这导致使用 Oozie 启动 Spark 应用程序失败) 的问题。

  • 修复了容器中基于 Spark Log4J 的日志记录的问题。YARN

版本 4.7.1

发布日期:2016 年 6 月 10 日

早期版本中已解决的已知问题

  • 修复了延长VPC使用私有子网启动的集群的启动时间的问题。该错误仅影响在 Amazon EMR 4.7.0 版本中启动的集群。

  • 修复了在 Amazon EMR 4.7.0 版本中启动EMR的集群在亚马逊中未正确处理文件列表的问题。

版本 4.7.0

重要

亚马逊 EMR 4.7.0 已被弃用。改用亚马逊 EMR 4.7.1 或更高版本。

发布日期:2016 年 6 月 2 日

功能

此版本提供以下功能:

  • 已添加 Apache Phoenix 4.7.0

  • 已添加 Apache Tez 0.8.3

  • 已升级到 HBase 1.2.1

  • 已升级到 Mahout 0.12.0

  • 已升级到 Presto 0.147

  • 已将升级 Amazon SDK for Java 到 1.10.75

  • 已从 mapreduce.cluster.local.dir 中的 mapred-site.xml 属性中删除最终标志以允许用户以本地模式运行 Pig。

Amazon Redshift JDBC 驱动程序可在集群上使用

亚马逊 Redshift JDBC 驱动程序现已包含在。/usr/share/aws/redshift/jdbc /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar是兼容 JDBC 4.1 的亚马逊 Redshift 驱动程序,也是兼容 4. JDBC 0 的亚马逊 Redshift 驱动程序/usr/share/aws/redshift/jdbc/RedshiftJDBC4.jar。有关更多信息,请参阅 Amazon Redshift 管理指南中的配置JDBC连接

Java 8

除了 Presto 之外,Open JDK 1.7 是所有应用程序的JDK默认设置。但是,Open JDK 1.7 和 1.8 都已安装。有关如何为应用程序设置 JAVA_HOME 的信息,请参阅配置应用程序以使用 Java 8

早期版本中已解决的已知问题

  • 修复了 emr-4.6.0 中显著影响亚马逊EMR吞吐量优化 HDD (st1) EBS 卷性能的内核问题。

  • 修复了如果在未选择 Hadoop 作为应用程序的情况下指定了任何HDFS加密区域,则集群会失败的问题。

  • 将默认HDFS写入策略从更改RoundRobinAvailableSpaceVolumeChoosingPolicy。 RoundRobin 配置中未正确利用某些卷,导致核心节点出现故障且不可靠HDFS。

  • 修复了在EMRFSCLI为一致视图创建默认 DynamoDB 元数据表时会导致异常的问题。

  • 修复了在EMRFS多部分重命名和复制操作期间可能发生的死锁问题。

  • 修复了EMRFS导致默认 CopyPart 大小为 5 MB 的问题。默认值现已相应地设置为 128 MB。

  • 修复了与 Zeppelin upstart 配置有关的问题,此问题可能会阻止您停止服务。

  • 修复了 Spark 和 Zeppelin 的问题,该问题使你无法使用该s3a://URI方案,/usr/lib/hadoop/hadoop-aws.jar因为它们各自的职业路径中没有正确加载。

  • 向后移植 HUE-2484

  • 向后移植了 Hue 3.9.0 中的提交(不JIRA存在),以修复浏览器示例的问题。HBase

  • 向后移植 HIVE-9073

版本 4.6.0

发布日期:2016 年 4 月 21 日

功能

此版本提供以下功能:

影响吞吐量优化 HDD (st1) EBS 卷类型的问题

Linux 内核版本 4.2 及更高版本中的问题会严重影响吞吐量优化 HDD (st1) EBS 卷的EMR性能。此版本 (emr-4.6.0) 使用内核版本 4.4.5,因此会受到影响。因此,如果您想使用 st1 卷,我们建议不要使用 emr-4.6.0。EBS您可以将 emr-4.5.0 或之前的亚马逊EMR版本与 st1 一起使用,而不会产生任何影响。此外,我们将随将来版本一起提供修复程序。

Python 默认值

现在,默认情况下已安装 Python 3.4,但 Python 2.7 将保留系统默认值。您可以使用引导操作将 Python 3.4 配置为系统默认值;您可以使用配置API在spark-env分类/usr/bin/python3.4中将 PYSPARK _ e PYTHON xport 设置为以影响所 PySpark使用的 Python 版本。

Java 8

除了 Presto 之外,Open JDK 1.7 是所有应用程序的JDK默认设置。但是,Open JDK 1.7 和 1.8 都已安装。有关如何为应用程序设置 JAVA_HOME 的信息,请参阅配置应用程序以使用 Java 8

早期版本中已解决的已知问题

  • 修复了应用程序预置有时会因生成的密码导致随机失败的问题。

  • 之前,mysqld 已安装在所有节点上。现在,它仅安装在主实例上,而且仅在所选应用程序将 mysql-server 作为组件包含时安装。目前,以下应用程序包括该mysql-server组件:、Hive HCatalog、Hue、Presto-Sandbox 和 Sqoop-Sandbox。

  • 从默认值 32 更改yarn.scheduler.maximum-allocation-vcores为 80,这修复了 emr-4.0 中引入的一个问题,该问题主要发生在 Spark 中,该问题主要发生在 Spark 中,核心实例类型是 YARN vcore 设置为 32 的少数大型实例类型之一;即 c4.8xlarge、cc2.8xlarge、hs1.8xlarge、i2.8xlarge、i2.8xlarge、i2.8xlarge、m2.4xlarge、d2.8xlarge、d2.8xlarge,或 m4.10xlarge 受到了此问题的影响。maximizeResourceAllocation

  • s3-dist-cp 现在用于所有 EMRFS Amazon S3 提名,不再暂存到临时目录。HDFS

  • 修复了与针对客户端加密分段上载的异常处理有关的问题。

  • 添加了允许用户更改 Amazon S3 存储类的选项。默认情况下,此设置为 STANDARDemrfs-site 配置分类设置为 fs.s3.storageClass,可能的值为 STANDARDSTANDARD_IAREDUCED_REDUNDANCY。有关存储类的更多信息,请参阅《Amazon Simple Storage Service 用户指南》中的存储类

版本 4.5.0

发布日期:2016 年 4 月 4 日

功能

此版本提供以下功能:

  • 已升级到 Spark 1.6.1

  • 已升级到 Hadoop 2.7.2

  • 已升级到 Presto 0.140

  • 增加了对 Amazon S3 服务器端加密的 Amazon KMS 支持。

早期版本中已解决的已知问题

  • 修复了节点重启后 My SQL 和 Apache 服务器无法启动的问题。

  • 修复IMPORT了存储在 Amazon S3 中的非分区表无法正常运行的问题

  • 修复了与 Presto 有关的问题,此问题导致在写入 Hive 表时要求暂存目录为 /mnt/tmp 而不是 /tmp

版本 4.4.0

发布日期:2016 年 3 月 14 日

功能

此版本提供以下功能:

  • 已添加 HCatalog 1.0.0

  • 已添加 Sqoop-Sandbox 1.4.6

  • 已升级到 Presto 0.136

  • 已升级到 Zeppelin 0.5.6

  • 已升级到 Mahout 0.11.1

  • 默认情况下已启用 dynamicResourceAllocation

  • 已添加针对此版本的所有配置分类的表。有关更多信息,请参阅配置应用程序中的“配置分类”表。

早期版本中已解决的已知问题

  • 修复了该maximizeResourceAllocation设置无法为YARN ApplicationMaster守护程序保留足够内存的问题。

  • 修复了自定义时遇到的问题DNS。如果 resolve.conf 中的任何条目位于提供的自定义条目之前,则自定义条目不可解析。此行为受到集群的影响,VPC其中默认VPC名称服务器作为顶部条目插入resolve.conf

  • 修复了默认 Python 已移至版本 2.7 且未为该版本安装 boto 的问题。

  • 修复了YARN容器和 Spark 应用程序生成唯一的 Ganglia 循环数据库 (rrd) 文件的问题,该文件会导致连接到实例的第一个磁盘已满。由于此修复,YARN容器级别的指标已被禁用,Spark 应用程序级别的指标已被禁用。

  • 修复了导致日志推送程序中删除所有空日志文件夹的问题。结果是 Hive 无法登录CLI,因为日志推送器正在删除其下的空user文件夹。/var/log/hive

  • 修复了影响 Hive 导入的问题,此问题影响分区并导致导入期间出现错误。

  • 修复了EMRFS和 s3-dist-cp 无法正确处理包含句点的存储桶名称的问题。

  • 更改了中的行为,EMRFS以便在启用版本控制的存储桶中不会连续创建_$folder$标记文件,这可能有助于提高启用版本控制的存储桶的性能。

  • 更改了中的EMRFS行为,使其不使用指令文件,除非启用了客户端加密。如果您要在使用客户端加密时删除说明文件,可将 emrfs-site.xml 属性 fs.s3.cse.cryptoStorageMode.deleteInstructionFiles.enabled 设置为 true。

  • 更改了YARN日志聚合,将聚合目标处的日志保留两天。默认目标为集群的HDFS存储空间。如果您要更改此持续时间,请在创建集群时使用 yarn.log-aggregation.retain-seconds 配置分类来更改 yarn-site 的值。与往常一样,您可以在创建集群时使用 log-uri 参数将应用程序日志保存到 Amazon S3。

已应用的修补程序

此版本中包含了来自开源项目的以下修补程序:

版本 4.3.0

发布日期:2016 年 1 月 19 日

功能

此版本提供以下功能:

  • 已升级到 Hadoop 2.7.1

  • 已升级到 Spark 1.6.0

  • 已将 Ganglia 升级到 3.7.2

  • 已将 Presto 升级到 0.130

Amazon 对spark.dynamicAllocation.enabled何时设置为 true EMR 进行了一些更改;默认情况下设置为 false。如果设置为 true,则会影响由 maximizeResourceAllocation 设置设定的默认值:

  • spark.dynamicAllocation.enabled设为 true,则 spark.executor.instances 将不被 maximizeResourceAllocation 设置。

  • 目前,spark.driver.memory 设置根据集群中的实例类型进行配置,与 spark.executors.memory 设置的方式类似。但是,由于 Spark 驱动程序应用程序可以在主实例或其中一个核心实例上运行(例如,分别在YARN客户端和集群模式下),因此该spark.driver.memory设置是根据这两个实例组之间较小实例类型的实例类型进行设置的。

  • 现在,该spark.default.parallelism设置设置为YARN容器可用CPU内核数量的两倍。在上一版本中,这是该值的一半。

  • 对为 Spark YARN 进程预留的内存开销的计算进行了调整,使其更加准确,从而使 Spark 可用的内存总量(即spark.executor.memory)略有增加。

早期版本中已解决的已知问题

  • YARN默认情况下,日志聚合现在处于启用状态。

  • 修复了启用日志聚合后无法将日志推送到集群的 Amazon S3 YARN 日志存储桶的问题。

  • YARN现在,在所有节点类型中,容器大小的最小值均为 32。

  • 修复了与 Ganglia 有关的问题,此问题已导致大型集群中主节点上的磁盘 I/O 过多。

  • 修复了在关闭集群时阻止应用程序日志推送至 Amazon S3 的问题。

  • 修复了导致EMRFSCLI某些命令失败的问题。

  • 修复了齐柏林飞艇无法在底层加载依赖项的问题。 SparkContext

  • 修复了因发出尝试添加实例的调整大小命令导致的问题。

  • 修复了 Hive 中出现的 AS 对 Amazon S3 SELECT 进行过多列表调用的问题。CREATE TABLE

  • 修复了在安装 Hue、Oozie 和 Ganglia 时无法正常预置大型集群的问题。

  • 修复了 s3-dist-cp 中的问题,此问题导致即使在失败并出现错误的情况下仍将返回零退出代码。

已应用的修补程序

此版本中包含了来自开源项目的以下修补程序:

版本 4.2.0

发布日期:2015 年 11 月 18 日

功能

此版本提供以下功能:

  • 已添加 Ganglia 支持

  • 已升级到 Spark 1.5.2

  • 已升级到 Presto 0.125

  • 已将 Oozie 升级到 4.2.0

  • 已将 Zeppelin 升级到 0.5.5

  • 已将升级 Amazon SDK for Java 到 1.10.27

早期版本中已解决的已知问题

  • 修复了未使用默认元数据表名称的问题。EMRFS CLI

  • 修复了在 Amazon S3 中使用ORC由支持的表时遇到的问题。

  • 修复了遇到的 Python 版本在 Spark 配置中不匹配的问题。

  • 修复了由于中的群集问题而无法报告YARN节点状态DNS的问题VPC。

  • 修复了节点YARN停用时遇到的问题,该问题导致应用程序挂起或无法调度新应用程序。

  • 修复了集群以 TIMED OUT _ 状态终止时遇到的问题STARTING。

  • 修复了在其他版本中包含 EMRFS Scala 依赖项时遇到的问题。Scala 依赖项已被删除。