在 EMR Serverless 上使用 Amazon Glue 多目录层次结构 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

在 EMR Serverless 上使用 Amazon Glue 多目录层次结构

您可以将 EMR Serverless 应用程序配置为使用 Amazon Glue 多目录层次结构。以下示例展示了如何将 EMR-S Spark 与 Amazon Glue 多目录层次结构结合使用。

要了解有关多目录层次结构的更多信息,请参阅通过 Amazon EMR 上的 Spark 在 Amazon Glue Data Catalog 中使用多目录层次结构

将 Redshift 托管式存储 (RMS) 与 Iceberg 和 Amazon Glue Data Catalog 结合使用

以下内容展示了如何配置 Spark 以便与 Iceberg 中的 Amazon Glue Data Catalog 集成:

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": "--conf spark.sql.catalog.nfgac_rms = org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=glue --conf spark.sql.catalog.rms.glue.id=Glue RMS catalog ID --conf spark.sql.defaultCatalog=rms --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

集成后来自目录中的表的查询示例:

SELECT * FROM my_rms_schema.my_table

将 Redshift 托管式存储 (RMS) 与 Iceberg REST API 和 Amazon Glue Data Catalog 结合使用

以下内容展示了如何将 Spark 配置为与 Iceberg REST 目录配合使用:

aws emr-serverless start-job-run \ --application-id application-id \ --execution-role-arn job-role-arn \ --job-driver '{ "sparkSubmit": { "entryPoint": "s3://amzn-s3-demo-bucket/myscript.py", "sparkSubmitParameters": " --conf spark.sql.catalog.rms=org.apache.iceberg.spark.SparkCatalog --conf spark.sql.catalog.rms.type=rest --conf spark.sql.catalog.rms.warehouse=Glue RMS catalog ID --conf spark.sql.catalog.rms.uri=Glue endpoint URI/iceberg --conf spark.sql.catalog.rms.rest.sigv4-enabled=true --conf spark.sql.catalog.rms.rest.signing-name=glue --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions" } }'

来自目录中的表的查询示例:

SELECT * FROM my_rms_schema.my_table