查询数据湖

您可以使用 Amazon Redshift 在 Amazon S3 中查询数据，而不必将数据加载到 Amazon Redshift 表中。Amazon Redshift 提供了 SQL 功能，专为对存储在 Amazon Redshift 集群和 Amazon S3 数据湖中的超大型数据集进行快速在线分析处理（OLAP）而设计。您可以查询多种格式的数据，包括 Iceberg、Parquet、ORC、RCFile、TextFile、SequenceFile、RegexSerde、OpenCSV 和 AVRO。您可以创建外部架构和表以定义 Amazon S3 中文件的结构。然后，您可以使用外部数据目录，如 Amazon Glue 或您自己的 Apache Hive 元存储。对数据目录类型进行的更改将立即对您的任何 Amazon Redshift 集群可用。

在您的数据注册到 Amazon Glue Data Catalog 并通过 Amazon Lake Formation 启用后，您可以开始查询数据湖。

您可在一个或多个列上对外部表进行分区，以通过消除分区来优化查询性能。您可以使用 Amazon Redshift 表查询和联接外部表。您可以从多个 Amazon Redshift 集群中访问外部表并在同一 Amazon 区域的任何集群中查询 Amazon S3 数据。更新 Amazon S3 数据文件后，立即可从您的任何 Amazon Redshift 集群查询到该数据。

将集成式数据湖查询引擎用于 RG 和 Redshift Serverless

Amazon Redshift RG 集群和 Amazon Redshift Serverless 包括一个在集群自己的计算资源上运行的集成式数据湖查询引擎，可为数据湖和数据仓库使用案例提供统一的体验。

集成式数据湖查询引擎消除了使用 Redshift Spectrum 的要求，并消除了相关的 Redshift Spectrum 费用。无需额外配置即可启用集成式数据湖查询引擎，因为该引擎默认处于启用状态。

注意

在某些情况下，与运行 Redshift Spectrum（使用专用计算资源独立扩展）的 RA3 集群相比，您可能会观察到 RG 上的性能较慢。如果您发现查询性能较慢，请考虑添加更多节点或升级到更大的 RG 实例大小。

将 Redshift Spectrum 用于 DC2 和 RA3

在 DC2 和 RA3 预置集群上，Redshift Spectrum 驻留在独立于您的集群的专用 Amazon Redshift 服务器上。Redshift Spectrum 将很多计算密集型任务（如谓词筛选和聚合）推送到 Redshift Spectrum 层。Redshift Spectrum 还可以通过智能方式扩展，以利用大规模并行处理。

有关 Redshift Spectrum 的更多信息，包括如何使用 Redshift Spectrum 和数据湖，请参阅 Amazon Redshift 数据库开发人员指南中的开始使用 Amazon Redshift Spectrum。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

查询数据不在 Amazon Redshift 中

查询远程数据来源