本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS runtime for Apache Spark(emr-spark-8.0 预览版)
下表列出了可用的应用程序版本AWS runtime for Apache Spark(emr-spark-8.0-preview)。
| 应用程序 | 版本 |
|---|---|
| Spark | 4.0.1-amzn-0 |
AWS runtime for Apache Spark(emr-spark-8.0 预览版) 发行说明
-
预览版 — 这是以 Apache Spark 4.0.
AWS runtime for Apache Spark1 为特色的预览版。此预览版仅在 EMR Serverless 上可用。 -
地区供货情况-此预览版适用于所有提供 EMR Serverless 的 Amazon 区域,但中国和 Amazon GovCloud (美国)地区除外。
-
应用程序版本信息-此版本附带以下应用程序版本:
-
Amazon 适用于 Java 的 SDK 2.35.5, 1.12.792
-
Python 3.9,3.11, 3.12
-
Scala 2.13.16
-
AmazonCloudWatchAgent 1.300034.0-amzn-0
-
三角洲 4.0.0-amzn-0-spark
-
冰山 1.10.0-amzn-spark-0
-
对于支持 C orretto 17(JDK 17)的应用程序,此版本默认附带亚马逊 Corretto 17(基于 OpenJDK 构建)。
-
-
预览限制-此预览版中不提供以下功能:
-
交互和集成功能:不支持 SageMaker Unified Studio、EMR Studio 集成、Spark Connect、 JupyterEnterpriseGateway Livy 等。
-
表格格式和访问控制:不支持 Hudi、Delta 通用格式和带有行级或列级筛选和运算符的细粒度访问控制 (FGAC)。 DDL/DML
-
数据连接器: spark-sql-kinesis、emr-dynamodb 和 spark-redshift 连接器不可用。
-
历史服务器:Pers ition Spark 历史服务器在此预览版中不可用。用户仍然可以访问实时 Spark 用户界面来实时监控和调试活动的无服务器作业。
-
特殊功能:实体化视图不可用。
-
-
预览功能-您可以在此预览版中测试以下功能。不建议将此预览版用于生产工作负载:
-
SQL 功能:具有更严格的类型处理的 ANSI SQL 模式、用于链接操作的 SQL PIPE 语法 (|>)、半结构化 JSON 数据的 VARIANT 数据类型、带有控制流语句和会话变量的 SQL 脚本以及 SQL 用户定义的函数。
-
流媒体增强功能:带有 transformWithState 运算符的任意状态处理 API v2、用于可查询流媒体状态的状态数据源读取器(实验性),以及通过改进 RocksDB 变更日志检查点功能增强的状态存储。
-
表格格式支持:Apache Iceberg v3 支持变体数据类型、 Amazon S3 表格集成以及与 Iceberg、Delta Lake 和 Hive 表 Amazon Lake Formation 的完整表访问权限 (FTA)。
-
-
其他文档——有关其他 Apache Spark 文档,请参阅 A pache Spark 4.0.1 版本
文档。
开始使用
要开始使用 Apache Spark 4.0.1 预览版,请使用 CLI 创建一个 EMR 无服务器应用程序: Amazon
aws emr-serverless create-application --type spark \ --release-label emr-spark-8.0-preview \ --region us-east-1 --name spark4-preview