教程:从 Amazon S3 加载数据 - Amazon Redshift
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

教程:从 Amazon S3 加载数据

在本教程中,您将了解从 Amazon S3 桶中的数据文件将数据加载到您的 Amazon Redshift 数据库表中的完整过程。

在本教程中,您将执行以下操作:

  • 下载使用逗号分隔值 (CSV) 格式、字符分隔格式和固定宽度格式的数据文件。

  • 创建一个 Amazon S3 桶,然后将数据文件上载到该桶。

  • 启动 Amazon Redshift 集群并创建数据库表。

  • 使用 COPY 命令从 Amazon S3 上的数据文件加载表。

  • 诊断加载错误并修改您的 COPY 命令来更正这些错误。

估计时间:60 分钟

估算费用:集群每小时 1.00 美元

先决条件

您需要以下先决条件:

  • 用于启动 Amazon Redshift 集群并在 Amazon S3 中创建桶的 Amazon 账户。

  • 您从 Amazon S3 加载测试数据的 Amazon 凭证(IAM 角色)。如果您需要一个新的 IAM 角色,请转到创建 IAM 角色

  • SQL 客户端,如 Amazon Redshift 控制台查询编辑器。

本教程设计为单独使用。除了本教程之外,还建议您完成以下教程来更全面地了解如何设计和使用 Amazon Redshift 数据库:

概述

您可以通过使用 INSERT 命令或 COPY 命令来将数据添加到您的 Amazon Redshift 表。在 Amazon Redshift 数据仓库的规模和速度方面,COPY 命令要比 INSERT 命令快许多倍且更高效。

COPY 命令使用 Amazon Redshift 大规模并行处理 (MPP) 架构来从多个数据源并行读取和加载数据。您可以从 Amazon S3、Amazon EMR 或任何可通过 Secure Shell (SSH) 连接访问的远程主机上的数据文件加载。或者,您可以直接从 Amazon DynamoDB 表加载。

在本教程中,您将使用 COPY 命令来从 Amazon S3 加载数据。此处提到的许多原则也适用于从其他数据源加载。

要了解有关使用 COPY 命令的更多信息,请参阅以下资源:

步骤