Amazon EMR on EKS 6.9.0 版本 - Amazon EMR

Amazon EMR on EKS 6.9.0 版本

以下 Amazon EMR 6.9.0 版本适用于 Amazon EMR on EKS。选择特定的 emr-6.9.0-XXXX 版本以查看更多详细信息，例如相关的容器映像标签。

emr-6.9.0-latest
emr-6.9.0-20230905
emr-6.9.0-20230624
emr-6.9.0-20221108
emr-6.9.0-spark-rapids-latest
emr-6.9.0-spark-rapids-20230624
emr-6.9.0-spark-rapids-20221108
notebook-spark/emr-6.9.0-latest
notebook-spark/emr-6.9.0-20230624
notebook-spark/emr-6.9.0-20221108
notebook-python/emr-6.9.0-latest
notebook-python/emr-6.9.0-20230624
notebook-python/emr-6.9.0-20221108

Amazon EMR 6.9.0 的发布说明

支持的应用程序- 适用于 Java 的 Amazon SDK 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。
支持的组件：aws-sagemaker-spark-sdk、emr-ddb、emr-goodies、emr-s3-select、emrfs、hadoop-client、hudi、hudi-spark、iceberg、spark-kubernetes。

受支持的配置分类：

与StartJobRun和一起使用 CreateManagedEndpoint APIs：

分类	描述
`core-site`	更改 Hadoop 的 core-site.xml 文件中的值。
`emrfs-site`	更改 EMRFS 设置。
`spark-metrics`	更改 Spark 的 metrics.properties 文件中的值。
`spark-defaults`	更改 Spark 的 spark-defaults.conf 文件中的值。
`spark-env`	更改 Spark 环境中的值。
`spark-hive-site`	更改 Spark 的 hive-site.xml 文件中的值。
`spark-log4j`	更改 Spark 的 log4j.properties 文件中的值。

专门用于以下用途 CreateManagedEndpoint APIs：

分类	描述
`jeg-config`	更改 Jupyter Enterprise Gateway `jupyter_enterprise_gateway_config.py` 文件中的值。
`jupyter-kernel-overrides`	更改 Jupyter 内核规范文件中内核映像的值。

配置分类允许您自定义应用程序。这些通常与应用程序的配置 XML 文件（例如 spark-hive-site.xml）相对应。有关更多信息，请参阅配置应用程序。

显著功能

适用于 Apache Spark 的 Nvidia RAPIDS Ac celerator — EKS 上的 Amazon EMR， EC2 使用图形处理单元 (GPU) 实例类型加速 Spark。要将 Spark 图像与 RAPIDS Accelerator 一起使用，请将发布标签指定为 emr-6.9.0-。spark-rapids-latest请访问文档页面以了解更多信息。
Spark-Redshift 连接器：Amazon EMR 发行版 6.9.0 及更高版本包含适用于 Apache Spark 的 Amazon Redshift 集成。本地集成之前是一种开源工具，现在是 Spark 连接器，您可以将其用于构建 Apache Spark 应用程序，这些应用程序可在 Amazon Redshift 和 Amazon Redshift Serverless 中读取和写入数据。有关更多信息，请参阅在 Amazon EMR on EKS 上使用适用于 Apache Spark 的 Amazon Redshift 集成。
Delta Lake：Delta Lake 是一种开源存储格式，可以构建具有事务一致性、对数据集进行一致定义、更改架构发展和数据的数据湖。请访问使用 Delta Lake 以了解更多信息。
修改 PySpark 参数 ——交互式端点现在支持修改与 EMR Studio Jupyter 笔记本中的 PySpark 会话关联的 Spark 参数。要了解更多信息，请访问修改会 PySpark 话参数。

已解决的问题

在 Amazon EMR 版本 6.6.0、6.7.0 和 6.8.0 上将 DynamoDB 连接器与 Spark 结合使用时，即使输入拆分引用了非空数据，表中的所有读取都会返回空结果。Amazon EMR 发行版 6.9.0 修复了此问题。
Amazon EMR on EKS 6.8.0 错误地填充了使用 Apache Spark 生成的 Parquet 文件元数据中的构建哈希。此问题可能会导致解析由 Amazon EMR on EKS 6.8.0 生成的 Parquet 文件中的元数据版本字符串的工具失败。

已知问题

如果您使用适用于 Apache Spark 的 Amazon Redshift 集成，并且时间、timetz、时间戳或时间戳精度为微秒格式，则连接器会将时间值四舍五入到最接近的毫秒值。解决方法是使用文本卸载格式 unload_s3_format 参数。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

emr-6.10.0-20230220

emr-6.9.0-latest