将 Delta Lake 与 Amazon EMR on EKS 结合使用 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

将 Delta Lake 与 Amazon EMR on EKS 结合使用

Delta Lake 与 Amazon EMR on EKS 应用程序结合使用
  1. 启动任务运行以在应用程序配置中提交 Spark 任务时,请包含 Delta Lake JAR 文件:

    --job-driver '{"sparkSubmitJobDriver" : { "sparkSubmitParameters" : "--jars local:///usr/share/aws/delta/lib/delta-core.jar,local:///usr/share/aws/delta/lib/delta-storage.jar,local:///usr/share/aws/delta/lib/delta-storage-s3-dynamodb.jar"}}'
    注意

    亚马逊 EMR 7.0.0 及更高版本使用 Delta Lake 3.0,后者重命名为。delta-core.jar delta-spark.jar如果您使用的是 Amazon EMR 7.0.0 或更高版本,请务必使用正确的文件名,如以下示例所示:

    --jars local:///usr/share/aws/delta/lib/delta-spark.jar
  2. 包括 Delta Lake 的额外配置,并 Amazon 使用 Glue 数据目录作为您的元数据仓。

    --configuration-overrides '{ "applicationConfiguration": [ { "classification" : "spark-defaults", "properties" : { "spark.sql.extensions" : "io.delta.sql.DeltaSparkSessionExtension", "spark.sql.catalog.spark_catalog":"org.apache.spark.sql.delta.catalog.DeltaCatalog", "spark.hadoop.hive.metastore.client.factory.class":"com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory" } }]}'