AWS runtime for Apache Spark(emr-spark-8.0 预览版) - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS runtime for Apache Spark(emr-spark-8.0 预览版)

下表列出了可用的应用程序版本AWS runtime for Apache Spark(emr-spark-8.0-preview)。

应用程序版本信息
应用程序 版本
Spark 4.0.1-amzn-0
AWS runtime for Apache Spark(emr-spark-8.0 预览版) 发行说明
  • 预览版 — 这是以 Apache Spark 4.0. AWS runtime for Apache Spark 1 为特色的预览版。此预览版仅在 EMR Serverless 上可用。

  • 地区供货情况-此预览版适用于所有提供 EMR Serverless 的 Amazon 区域,但中国和 Amazon GovCloud (美国)地区除外。

  • 应用程序版本信息-此版本附带以下应用程序版本:

    • Amazon 适用于 Java 的 SDK 2.35.5, 1.12.792

    • Python 3.9,3.11, 3.12

    • Scala 2.13.16

    • AmazonCloudWatchAgent 1.300034.0-amzn-0

    • 三角洲 4.0.0-amzn-0-spark

    • 冰山 1.10.0-amzn-spark-0

    • 对于支持 C orretto 17(JDK 17)的应用程序,此版本默认附带亚马逊 Corretto 17(基于 OpenJDK 构建)。

  • 预览限制-此预览版中不提供以下功能:

    • 交互和集成功能:不支持 SageMaker Unified Studio、EMR Studio 集成、Spark Connect、 JupyterEnterpriseGateway Livy 等。

    • 表格格式和访问控制:不支持 Hudi、Delta 通用格式和带有行级或列级筛选和运算符的细粒度访问控制 (FGAC)。 DDL/DML

    • 数据连接器: spark-sql-kinesis、emr-dynamodb 和 spark-redshift 连接器不可用。

    • 历史服务器:Pers ition Spark 历史服务器在此预览版中不可用。用户仍然可以访问实时 Spark 用户界面来实时监控和调试活动的无服务器作业。

    • 特殊功能:实体化视图不可用。

  • 预览功能-您可以在此预览版中测试以下功能。不建议将此预览版用于生产工作负载:

    • SQL 功能:具有更严格的类型处理的 ANSI SQL 模式、用于链接操作的 SQL PIPE 语法 (|>)、半结构化 JSON 数据的 VARIANT 数据类型、带有控制流语句和会话变量的 SQL 脚本以及 SQL 用户定义的函数。

    • 流媒体增强功能:带有 transformWithState 运算符的任意状态处理 API v2、用于可查询流媒体状态的状态数据源读取器(实验性),以及通过改进 RocksDB 变更日志检查点功能增强的状态存储。

    • 表格格式支持:Apache Iceberg v3 支持变体数据类型、 Amazon S3 表格集成以及与 Iceberg、Delta Lake 和 Hive 表 Amazon Lake Formation 的完整表访问权限 (FTA)。

  • 其他文档——有关其他 Apache Spark 文档,请参阅 A pache Spark 4.0.1 版本文档。

开始使用

要开始使用 Apache Spark 4.0.1 预览版,请使用 CLI 创建一个 EMR 无服务器应用程序: Amazon

aws emr-serverless create-application --type spark \ --release-label emr-spark-8.0-preview \ --region us-east-1 --name spark4-preview