Amazon EMR on EKS 6.9.0 版本 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon EMR on EKS 6.9.0 版本

以下 Amazon EMR 6.9.0 版本适用于 Amazon EMR on EKS。选择特定的 emr-6.9.0-XXXX 版本以查看更多详细信息,例如相关的容器映像标签。

  • emr-6.9.0-latest

  • emr-6.9.0-20221108

  • emr-6.9.0-20221108

  • emr-6.9.0-spark-rapids-latest

  • emr-6.9.0-spark-rapids-20230624

  • emr-6.9.0-spark-rapids-20221108

  • notebook-spark/emr-6.9.0-latest

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-latest

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

Amazon EMR 6.9.0 的发布说明

  • 支持的应用程序:Amazon SDK for Java 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。

  • 支持的组件:aws-sagemaker-spark-sdkemr-ddbemr-goodiesemr-s3-selectemrfshadoop-clienthudihudi-sparkicebergspark-kubernetes

  • 受支持的配置分类:

    StartJobRunCreateManagedEndpoint API 结合使用:

    分类 描述

    core-site

    更改 Hadoop 的 core-site.xml 文件中的值。

    emrfs-site

    更改 EMRFS 设置。

    spark-metrics

    更改 Spark 的 metrics.properties 文件中的值。

    spark-defaults

    更改 Spark 的 spark-defaults.conf 文件中的值。

    spark-env

    更改 Spark 环境中的值。

    spark-hive-site

    更改 Spark 的 hive-site.xml 文件中的值。

    spark-log4j

    更改 Spark 的 log4j.properties 文件中的值。

    专门用于 CreateManagedEndpoint API:

    分类 描述

    jeg-config

    更改 Jupyter Enterprise Gateway jupyter_enterprise_gateway_config.py 文件中的值。

    jupyter-kernel-overrides

    更改 Jupyter 内核规范文件中内核映像的值。

    配置分类允许您自定义应用程序。这些通常与应用程序的配置 XML 文件(例如 spark-hive-site.xml)相对应。有关更多信息,请参阅配置应用程序

显著功能

  • 适用于 Apache Spark 的 Nvidia RAPIDS Accelerator:Amazon EMR on EKS 使用 EC2 图形处理单元(GPU)实例类型加速 Spark。要将 Spark 映像与 RAPIDS Accelerator 结合使用,请将发行版标签指定为 emr-6.9.0-spark-rapids-latest。请访问文档页面以了解更多信息。

  • Spark-Redshift 连接器:Amazon EMR 发行版 6.9.0 及更高版本包含适用于 Apache Spark 的 Amazon Redshift 集成。本地集成之前是一种开源工具,现在是 Spark 连接器,您可以将其用于构建 Apache Spark 应用程序,这些应用程序可在 Amazon Redshift 和 Amazon Redshift Serverless 中读取和写入数据。有关更多信息,请参阅在 Amazon EMR on EKS 上使用适用于 Apache Spark 的 Amazon Redshift 集成

  • Delta LakeDelta Lake 是一种开源存储格式,可以构建具有事务一致性、对数据集进行一致定义、更改架构发展和数据的数据湖。请访问 使用 Delta Lake 以了解更多信息。

  • 修改 PySpark 参数 – 交互式端点现在支持修改与 EMR Studio Jupyter Notebook 中的 PySpark 会话关联的 Spark 参数。请访问修改 PySpark 会话参数以了解更多信息。

已解决的问题

  • 在 Amazon EMR 版本 6.6.0、6.7.0 和 6.8.0 上将 DynamoDB 连接器与 Spark 结合使用时,即使输入拆分引用了非空数据,表中的所有读取都会返回空结果。Amazon EMR 发行版 6.9.0 修复了此问题。

  • Amazon EMR on EKS 6.8.0 错误地填充了使用 Apache Spark 生成的 Parquet 文件元数据中的构建哈希。此问题可能会导致解析由 Amazon EMR on EKS 6.8.0 生成的 Parquet 文件中的元数据版本字符串的工具失败。

已知问题

  • 如果您使用适用于 Apache Spark 的 Amazon Redshift 集成,并且具有 Parquet 格式的时间、timetz、时间戳或 timestamptz(精度为微秒),连接器会将时间值舍入为最接近的毫秒值。解决方法是使用文本卸载格式 unload_s3_format 参数。