Amazon Redshift
数据库开发人员指南 (API Version 2012-12-01)
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。点 击 Getting Started with Amazon AWS to see specific differences applicable to the China (Beijing) Region.

教程:从 Amazon S3 加载数据

在本教程中,您将了解从 Amazon Simple Storage Service (Amazon S3) 存储桶中的数据文件将数据加载到您的 Amazon Redshift 数据库表中的完整过程。

在本教程中,您将:

  • 下载使用 CSV 格式、字符分隔格式和固定宽度格式的数据文件。

  • 创建一个 Amazon S3 存储桶,然后将数据文件上传到该存储桶。

  • 启动 Amazon Redshift 集群并创建数据库表。

  • 使用 COPY 命令从 Amazon S3 上的数据文件加载表。

  • 诊断加载错误并修改您的 COPY 命令来更正这些错误。

估计时间:60 分钟

估算费用:集群每小时 1.00 美元

先决条件

您将需要以下先决条件:

  • 一个用来在 Amazon S3 中启动 Amazon Redshift 集群和创建存储桶的 AWS 账户。

  • 用来从 Amazon S3 加载测试数据的 AWS 凭证(一个访问密钥 ID 和秘密访问密钥)。如果您需要创建新的访问密钥,请转至管理 IAM 用户的访问密钥

本教程设计为单独使用。除了本教程之外,还建议您完成以下教程来更全面地了解如何设计和使用 Amazon Redshift 数据库:

  • Amazon Redshift 入门将指导您完成创建 Amazon Redshift 集群和加载示例数据的过程。

  • 教程:优化表设计将分步指导您完成设计和优化表的过程,包括选择排序键、分配样式和压缩编码以及在优化前后评估系统性能。

概述

您可以通过使用 INSERT 命令或 COPY 命令来将数据添加到您的 Amazon Redshift 表。在 Amazon Redshift 数据仓库的规模和速度方面,COPY 命令要比 INSERT 命令快许多倍且更高效。

COPY 命令使用 Amazon Redshift 大规模并行处理 (MPP) 架构来从多个数据源并行读取和加载数据。您可以从 Amazon S3、Amazon EMR 或任何可通过安全外壳 (SSH) 连接访问的远程主机上的数据文件加载,也可以从 Amazon DynamoDB 表直接加载。

在本教程中,您将使用 COPY 命令来从 Amazon S3 加载数据。此处提到的许多原则也适用于从其他数据源加载。

要了解有关使用 COPY 命令的更多信息,请参阅以下资源:

步骤

本页内容: