本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
EKS6.11. EMR 0 版本的亚马逊
本页介绍亚马逊在EKS部署时专为亚马逊EMR提供的新功能和更新功能。EMR有关亚马逊在亚马逊上EMR运行EC2以及亚马逊 EMR 6.11.0 版本的总体详情,请参阅《亚马逊发行指南》中的 A mazon EMR 6.11. 0。EMR
亚马逊EMR在 EKS 6.11 版本上
以下亚马逊 EMR 6.11.0 版本可在亚马逊EMR上使用。EKS选择特定的 emr-6.11.0 XXXX 版本以查看更多详细信息,例如相关的容器映像标签。
-
emr-6.11.0-spark-rapids-latest
-
emr-6.11.0-spark-rapids-20230509
-
emr-6.11.0-java11-latest
-
emr-6.11.0-java11-20230509
-
notebook-spark/emr-6.11.0-latest
-
notebook-spark/emr-6.11.0-20230509
-
notebook-python/emr-6.11.0-latest
-
notebook-python/emr-6.11.0-20230509
发行说明
亚马逊 EMR EKS 6.11.0 版本发布说明
-
支持的应用程序- Amazon SDK for Java 1.12.446、Apache Spark 3.3.2-amzn-0、Apache Hudi 0.13.0-amzn-0、Apache Iceberg 1.2.0-amzn-0、Delta 2.0、Apache Spark 23.02.0-amzn-0、Jupyter Enterprise Gateway 2.6.0 RAPIDS
-
支持的组件 -
aws-sagemaker-spark-sdk
、emr-ddb
、emr-goodies
、emr-s3-select
、emrfs
、hadoop-client
、hudi
、hudi-spark
、iceberg
、spark-kubernetes
。 -
支持的配置分类
与StartJobRun和一起使用 CreateManagedEndpointAPIs:
分类 描述 core-site
更改
core-site.xml
Hadoop 文件中的值。emrfs-site
更改EMRFS设置。
spark-metrics
更改
metrics.properties
Spark 文件中的值。spark-defaults
更改
spark-defaults.conf
Spark 文件中的值。spark-env
更改 Spark 环境中的值。
spark-hive-site
更改
hive-site.xml
Spark 文件中的值。spark-log4j
更改
log4j.properties
Spark 文件中的值。专门用于以下用途 CreateManagedEndpointAPIs:
分类 描述 jeg-config
更改 Jupyter Enterprise Gateway
jupyter_enterprise_gateway_config.py
文件中的值。jupyter-kernel-overrides
更改 Jupyter 内核规范文件中内核映像的值。
配置分类允许您自定义应用程序。它们通常对应于应用程序的配置XML文件,例如
spark-hive-site.xml
。有关更多信息,请参阅配置应用程序。
显著功能
在 Amazon EMR 上EKS发布的 6.11 版本中包含以下功能。
-
亚马逊ECR公共图库中的 Amaz EMR on EKS 基础图片 — 如果您使用自定义图片功能,我们的基础映像将提供与亚马逊EMR进行交互的必备 jar、配置和库。EKS现在,您可以在 Amazon ECR 公共图库
中找到基础图片。 -
Spark 容器日志轮换 — EKS 6.11 版本EMR的亚马逊支持 Spark 容器日志轮换。您可以在的
MonitoringConfiguration
操作containerLogRotationConfiguration
中启用该功能StartJobRun
API。您可以配置rotationSize
和maxFilestoKeep
来指定您希望 Amaz EMR on EKS 在 Spark 驱动程序和执行程序窗格中保留的日志文件的数量和大小。有关更多信息,请参阅 使用 Spark 容器日志轮换。 -
Spark 运算符和 spark-submit 支持 Volcano — EKS 6.11 版本的亚马逊支持EMR在 Spark 运算符和 spark-submit 中使用 Volcano 作为 Kubernetes 自定义调度器运行 Spark 作业。您可以使用分组调度、队列管理、抢占和公平分享调度等功能来实现高调度吞吐量和优化容量。有关更多信息,请参阅 在 Amazon EMR on EKS 上将 Volcano 用作 Apache Spark 自定义调度器。