Amazon Redshift 概念概述 - Amazon Redshift
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

Amazon Redshift 概念概述

Amazon Redshift Serverless 让您可以访问和分析数据,而无需对预置数据仓库执行任何配置操作。系统将自动预置资源,数据仓库的容量会智能扩展,即使面对要求最为苛刻且不可预测的工作负载也能提供高速性能。数据仓库空闲时不会产生费用,您只需为实际使用的资源付费。您可以在 Amazon Redshift 查询编辑器 v2 或您最喜欢的商业智能(BI,Business Intelligence)工具中,直接加载数据并开始查询。在易于使用且无需承担管理任务的环境中,享受最佳性价比,使用熟悉的 SQL 功能。

如果您是首次接触 Amazon Redshift 的用户,我们建议您先阅读以下部分:

如果您希望手动管理 Amazon Redshift 资源,则可以创建预置集群来满足自己的数据查询需求。有关更多信息,请参阅 Amazon Redshift 集群

如果您的组织符合条件,而在您创建集群的 Amazon Web Services 区域中,Amazon Redshift Serverless 不可用,则您也许可以通过 Amazon Redshift 免费试用计划创建集群。请选择生产免费试用来回答问题您打算将此集群用于什么? 选择免费试用时,您将创建具有 dc2.large 节点类型的配置。有关选择免费试用的更多信息,请参阅 Amazon 免费试用

以下是 Amazon Redshift Serverless 的一些关键概念:

  • 命名空间 – 数据库对象和用户的集合。命名空间将您在 Amazon Redshift Serverless 中使用的所有资源组合在一起,例如架构、表、用户、数据共享和快照。

  • 工作组 – 计算资源的集合。工作组存放 Amazon Redshift Serverless 运行计算任务所用的计算资源。这些资源的示例包括 Redshift 处理单元(RPU,Redshift Processing Unit)、安全组、使用限制。您可以使用 Amazon Redshift Serverless 控制台、Amazon Command Line Interface 或 Amazon Redshift Serverless API 来配置工作组的网络和安全设置。

有关配置命名空间和工作组资源的更多信息,请参阅使用命名空间使用工作组

以下是 Amazon Redshift 预置集群的一些关键概念:

  • 集群 – 集群是 Amazon Redshift 数据仓库的核心基础设施组件。

    集群包含一个或多个计算节点。这些计算节点运行编译后的代码。

    如果集群预置有两个或更多计算节点,则一个额外的领导节点将协调这些计算节点。领导节点处理与应用程序的外部通信,例如商业智能工具和查询编辑器。您的客户端应用程序仅直接与领导节点交互。计算节点对于外部应用程序是透明的。

  • 数据库 – 一个集群包含一个或多个数据库

    用户数据存储在计算节点上的一个或多个数据库中。您的 SQL 客户端与领导节点进行通信,进而通过计算节点协调查询运行。有关计算节点和领导节点的详细信息,请参阅数据仓库系统架构。在数据库中,用户数据被组织成一个或多个架构。

    Amazon Redshift 是一个关系数据库管理系统(RDBMS),可与其它 RDBMS 应用程序兼容。虽然它提供了与典型 RDBMS 相同的功能,包括联机事务处理(OLTP)功能,例如,插入和删除数据。Amazon Redshift 还针对数据集的高性能批量分析和报告进行了优化。

接下来,您可以在 Amazon Redshift 中找到对典型数据处理流程的描述以及流程不同部分的描述。有关 Amazon Redshift 系统架构的更多信息,请参阅数据仓库系统架构

以下示意图说明 Amazon Redshift 中典型的数据处理流程。

Amazon Redshift 数据仓库是一个企业级的关系数据库查询和管理系统。Amazon Redshift 支持与多种类型的应用程序(包括业务情报 (BI)、报告、数据和分析工具)建立客户端连接。在运行分析查询时,您将在多阶段操作中检索、比较和计算大量数据以产生最终结果。

数据摄取层,不同类型的数据源会持续将结构化、半结构化或非结构化数据上载到数据存储层。该数据存储区用作暂存区,用于存储处于不同消费准备状态的数据。Amazon Simple Storage Service(Amazon S3)存储桶就是这种存储的示例。

在可选数据处理层,源数据使用提取、转换、加载(ETL)或提取、加载、转换(ELT)管道进行预处理、验证和转换。然后,使用 ETL 操作对这些原始数据集进行优化。ETL 引擎的一个示例是 Amazon Glue。

数据使用层,数据将加载到 Amazon Redshift 集群中,您可以在其中运行分析工作负载。

有关分析工作负载的示例,请参阅查询外部数据来源