Amazon Redshift
数据库开发人员指南 (API Version 2012-12-01)
AWS 服务或AWS文档中描述的功能,可能因地区/位置而异。点 击 Getting Started with Amazon AWS to see specific differences applicable to the China (Beijing) Region.

步骤 2:创建 Amazon EMR 群集

COPY 命令从 Amazon EMR Hadoop 分布式文件系统 (HDFS) 上的文件加载数据。当您创建 Amazon EMR 群集时,请将群集配置为将数据文件输出到群集的 HDFS。

创建 Amazon EMR 群集

  1. 在 Amazon Redshift 群集所在的 AWS 区域中创建 Amazon EMR 群集。

    如果 Amazon Redshift 群集在 VPC 中,则 Amazon EMR 群集必须在同一 VPC 组中。如果 Amazon Redshift 群集使用 EC2-Classic 模式(即,它不在 VPC 中),则 Amazon EMR 群集必须也使用 EC2-Classic 模式。有关更多信息,请参阅 Amazon Redshift Cluster Management Guide 中的在 Virtual Private Cloud (VPC) 中管理群集

  2. 将群集配置为将数据文件输出到群集的 HDFS。HDFS 文件名不能包括星号 (*) 或问号 (?)。

    重要

    文件名不能包括星号 (*) 或问号 (?)。

  3. 在 Amazon EMR 群集配置中为 Auto-terminate 选项指定 No,以便群集在 COPY 命令执行过程中保持可用。

    重要

    如果在 COPY 完成前更改或删除了任何数据文件,则您可能会遇到意外结果,或者 COPY 操作可能失败。

  4. 请记下群集 ID 和主节点公有 DNS(托管群集的 Amazon EC2 实例的终端节点)。您将在后面的步骤中用到这些信息。