Amazon Redshift
数据库开发人员指南 (API 版本 2012-12-01)
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

步骤 2:创建 Amazon EMR 集群

COPY 命令从 Amazon EMR Hadoop 分布式文件系统 (HDFS) 上的文件加载数据。当您创建 Amazon EMR 集群时,请将集群配置为将数据文件输出到集群的 HDFS。

创建 Amazon EMR 集群

  1. 在 Amazon Redshift 集群所在的 AWS 区域中创建 Amazon EMR 集群。

    如果 Amazon Redshift 集群在 VPC 中,则 Amazon EMR 集群必须在同一 VPC 组中。如果 Amazon Redshift 集群使用 EC2-Classic 模式(即,它不在 VPC 中),则 Amazon EMR 集群必须也使用 EC2-Classic 模式。有关更多信息,请参阅 Amazon Redshift Cluster Management Guide 中的在 Virtual Private Cloud (VPC) 中管理集群

  2. 将集群配置为将数据文件输出到集群的 HDFS。HDFS 文件名不能包括星号 (*) 或问号 (?)。

    重要

    文件名不能包括星号 (*) 或问号 (?)。

  3. 在 Amazon EMR 集群配置中为 Auto-terminate 选项指定 No,以便集群在 COPY 命令执行过程中保持可用。

    重要

    如果在 COPY 完成前更改或删除了任何数据文件,则您可能会遇到意外结果,或者 COPY 操作可能失败。

  4. 请记下集群 ID 和主节点公有 DNS(托管集群的 Amazon EC2 实例的终端节点)。您将在后面的步骤中用到这些信息。