Amazon Redshift
数据库开发人员指南 (API Version 2012-12-01)
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。请点击 Amazon AWS 入门,可查看中国地区的具体差异

从远程主机加载数据

您可使用 COPY 命令从一个或多个远程主机并行加载数据,例如 Amazon EC2 实例或其他计算机。COPY 将连接到使用 SSH 的远程主机并在远程主机上执行命令以生成文本输出。

远程主机可以是 Amazon EC2 Linux 实例或配置为接受 SSH 连接的另一台 Unix 或 Linux 计算机。本指南假定您的远程主机是 Amazon EC2 实例。如果过程与其他计算机不同,指南中将会指出差别。

Amazon Redshift 可连接到多台主机,并可以与每台主机建立多个 SSH 连接。Amazon Redshift 通过每个连接发送一个唯一命令以生成到主机的标准输出的文本输出,Amazon Redshift 随后将该文本输出像文本文件一样进行读取。

开始前的准备工作

在开始之前,您应做好以下准备:

  • 您可使用 SSH 连接的一个或多个主机(如 Amazon EC2 实例)。

  • 主机上的数据源。

    您将提供一些命令,Amazon Redshift 群集将在主机上运行这些命令以生成文本输出。在群集连接到主机后,COPY 命令将运行这些命令,从主机的标准输出中读取文本,并将数据并行加载到 Amazon Redshift 表中。文本输出必须采用 COPY 命令可提取的形式。有关更多信息,请参阅 准备您的输入数据

  • 从您的计算机访问主机的权限。

    对于 Amazon EC2 实例,您将使用 SSH 连接来访问主机。您需要访问主机以将 Amazon Redshift 群集的公有密钥添加到主机的授权密钥文件。

  • 一个正在运行的 Amazon Redshift 群集。

    有关如何启动群集的信息,请参阅 Amazon Redshift 入门

加载数据的过程

本节指导您完成从远程主机加载数据的过程。以下各节将提供您完成每个步骤所需的详细信息。