本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
亚马逊EMR在 EKS 6.9.0 版本上
以下亚马逊 EMR 6.9.0 版本可在亚马逊EMR上使用。EKS选择特定的 emr-6.9.0 XXXX 版本以查看更多详细信息,例如相关的容器映像标签。
-
emr-6.9.0-spark-rapids-latest
-
emr-6.9.0-spark-rapids-20230624
-
emr-6.9.0-spark-rapids-20221108
-
notebook-spark/emr-6.9.0-latest
-
notebook-spark/emr-6.9.0-20230624
-
notebook-spark/emr-6.9.0-20221108
-
notebook-python/emr-6.9.0-latest
-
notebook-python/emr-6.9.0-20230624
-
notebook-python/emr-6.9.0-20221108
亚马逊 EMR 6.9.0 版本说明
-
支持的应用程序- Amazon SDK for Java 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。
-
支持的组件:
aws-sagemaker-spark-sdk
、emr-ddb
、emr-goodies
、emr-s3-select
、emrfs
、hadoop-client
、hudi
、hudi-spark
、iceberg
、spark-kubernetes
。 -
受支持的配置分类:
与StartJobRun和一起使用 CreateManagedEndpointAPIs:
分类 描述 core-site
更改 Hadoop 的 core-site.xml 文件中的值。
emrfs-site
更改EMRFS设置。
spark-metrics
更改 Spark 的 metrics.properties 文件中的值。
spark-defaults
更改 Spark 的 spark-defaults.conf 文件中的值。
spark-env
更改 Spark 环境中的值。
spark-hive-site
更改 Spark 的 hive-site.xml 文件中的值。
spark-log4j
更改 Spark 的 log4j.properties 文件中的值。
专门用于以下用途 CreateManagedEndpointAPIs:
分类 描述 jeg-config
更改 Jupyter Enterprise Gateway
jupyter_enterprise_gateway_config.py
文件中的值。jupyter-kernel-overrides
更改 Jupyter 内核规范文件中内核映像的值。
配置分类允许您自定义应用程序。它们通常对应于应用程序的配置XML文件,例如
spark-hive-site.xml
。有关更多信息,请参阅配置应用程序。
显著功能
-
适用于 Apache Spark 的 Nvidia A RAPIDS c celerator — Amaz EMR on EKS 正在使用EC2图形处理单元 (GPU) 实例类型加速 Spark。要将 Spark 映像与 A RAPIDS ccelerator 一起使用,请将发布标签指定为 emr-6.9.0-。spark-rapids-latest请访问文档页面以了解更多信息。
-
Spark-Redshift 连接器 ——适用于 Apache Spark 的 Amazon Redshift 集成包含在亚马逊 6.9.0 及更高版本中。EMR本地集成之前是一种开源工具,现在是 Spark 连接器,您可以将其用于构建 Apache Spark 应用程序,这些应用程序可在 Amazon Redshift 和 Amazon Redshift Serverless 中读取和写入数据。有关更多信息,请参阅 在 Amazon EMR on EKS 上使用适用于 Apache Spark 的 Amazon Redshift 集成。
-
Delta Lake:Delta Lake
是一种开源存储格式,可以构建具有事务一致性、对数据集进行一致定义、更改架构发展和数据的数据湖。请访问 使用 Delta Lake 以了解更多信息。 -
修改 PySpark 参数-交互式端点现在支持修改与 EMR Studio Jupyter PySpark 笔记本中的会话关联的 Spark 参数。要了解更多信息,请访问修改会 PySpark 话参数。
已解决的问题
-
当您在EMR亚马逊 6.0、6.7.0 和 6.8.0 版本上将 DynamoDB 连接器与 Spark 配合使用时,即使输入拆分引用非空数据,所有从表中读取的内容都会返回空结果。亚马逊 6.9.0 EMR 版本修复了这个问题。
-
EKS6.8.0 版本EMR的亚马逊在使用 Apache Spark 生成的 Parquet 文件元数据中错误地填充了构建哈希。
此问题可能会导致解析亚马逊在 EKS 6.8.0 EMR 上生成的 Parquet 文件中的元数据版本字符串的工具失败。
已知问题
-
如果您使用适用于 Apache Spark 的 Amazon Redshift 集成,并且具有 Parquet 格式的时间、timetz、时间戳或 timestamptz(精度为微秒),连接器会将时间值舍入为最接近的毫秒值。解决方法是使用文本卸载格式
unload_s3_format
参数。