亚马逊EMR在 EKS 6.9.0 版本上 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊EMR在 EKS 6.9.0 版本上

以下亚马逊 EMR 6.9.0 版本可在亚马逊EMR上使用。EKS选择特定的 emr-6.9.0 XXXX 版本以查看更多详细信息,例如相关的容器映像标签。

  • emr-6.9.0-latest

  • emr-6.9.0-20230905

  • emr-6.9.0-20230624

  • emr-6.9.0-20221108

  • emr-6.9.0-spark-rapids-latest

  • emr-6.9.0-spark-rapids-20230624

  • emr-6.9.0-spark-rapids-20221108

  • notebook-spark/emr-6.9.0-latest

  • notebook-spark/emr-6.9.0-20230624

  • notebook-spark/emr-6.9.0-20221108

  • notebook-python/emr-6.9.0-latest

  • notebook-python/emr-6.9.0-20230624

  • notebook-python/emr-6.9.0-20221108

亚马逊 EMR 6.9.0 版本说明

  • 支持的应用程序- Amazon SDK for Java 1.12.331、Spark 3.3.0-amzn-1、Hudi 0.12.1-amzn-0、Iceberg 0.14.1-amzn-0、Delta 2.1.0。

  • 支持的组件:aws-sagemaker-spark-sdkemr-ddbemr-goodiesemr-s3-selectemrfshadoop-clienthudihudi-sparkicebergspark-kubernetes

  • 受支持的配置分类:

    StartJobRun和一起使用 CreateManagedEndpointAPIs:

    分类 描述

    core-site

    更改 Hadoop 的 core-site.xml 文件中的值。

    emrfs-site

    更改EMRFS设置。

    spark-metrics

    更改 Spark 的 metrics.properties 文件中的值。

    spark-defaults

    更改 Spark 的 spark-defaults.conf 文件中的值。

    spark-env

    更改 Spark 环境中的值。

    spark-hive-site

    更改 Spark 的 hive-site.xml 文件中的值。

    spark-log4j

    更改 Spark 的 log4j.properties 文件中的值。

    专门用于以下用途 CreateManagedEndpointAPIs:

    分类 描述

    jeg-config

    更改 Jupyter Enterprise Gateway jupyter_enterprise_gateway_config.py 文件中的值。

    jupyter-kernel-overrides

    更改 Jupyter 内核规范文件中内核映像的值。

    配置分类允许您自定义应用程序。它们通常对应于应用程序的配置XML文件,例如spark-hive-site.xml。有关更多信息,请参阅配置应用程序

显著功能

  • 适用于 Apache Spark 的 Nvidia A RAPIDS c celerator — Amaz EMR on EKS 正在使用EC2图形处理单元 (GPU) 实例类型加速 Spark。要将 Spark 映像与 A RAPIDS ccelerator 一起使用,请将发布标签指定为 emr-6.9.0-。spark-rapids-latest请访问文档页面以了解更多信息。

  • Spark-Redshift 连接器 ——适用于 Apache Spark 的 Amazon Redshift 集成包含在亚马逊 6.9.0 及更高版本中。EMR本地集成之前是一种开源工具,现在是 Spark 连接器,您可以将其用于构建 Apache Spark 应用程序,这些应用程序可在 Amazon Redshift 和 Amazon Redshift Serverless 中读取和写入数据。有关更多信息,请参阅 在 Amazon EMR on EKS 上使用适用于 Apache Spark 的 Amazon Redshift 集成

  • Delta LakeDelta Lake 是一种开源存储格式,可以构建具有事务一致性、对数据集进行一致定义、更改架构发展和数据的数据湖。请访问 使用 Delta Lake 以了解更多信息。

  • 修改 PySpark 参数-交互式端点现在支持修改与 EMR Studio Jupyter PySpark 笔记本中的会话关联的 Spark 参数。要了解更多信息,请访问修改会 PySpark 话参数

已解决的问题

已知问题

  • 如果您使用适用于 Apache Spark 的 Amazon Redshift 集成,并且具有 Parquet 格式的时间、timetz、时间戳或 timestamptz(精度为微秒),连接器会将时间值舍入为最接近的毫秒值。解决方法是使用文本卸载格式 unload_s3_format 参数。