步骤 2:创建 Amazon EMR 集群
COPY 命令从 Amazon EMR Hadoop Distributed File System (HDFS) 上的文件加载数据。当您创建 Amazon EMR 集群时,请将集群配置为将数据文件输出到集群的 HDFS。
要创建 Amazon EMR 集群
-
在与 Amazon Redshift 集群相同的 Amazon 区域中创建 Amazon EMR 集群。
如果 Amazon Redshift 集群在 VPC 中,则 Amazon EMR 集群必须在同一 VPC 组中。如果 Amazon Redshift 集群使用 EC2-Classic 模式(即,它不在 VPC 中),则 Amazon EMR 集群必须也使用 EC2-Classic 模式。有关更多信息,请参阅《Amazon Redshift 管理指南》中的管理 Virtual Private Cloud (VPC) 中的集群。
-
将集群配置为将数据文件输出到集群的 HDFS。HDFS 文件名不能包括星号 (*) 或问号 (?)。
重要
文件名不能包括星号 (*) 或问号 (?)。
-
在 Amazon EMR 集群配置中,将自动终止选项指定为否,以便集群在 COPY 命令运行时保持可用。
重要
如果在 COPY 完成前更改或删除了任何数据文件,则您可能会遇到意外结果,或者 COPY 操作可能失败。
-
请记下集群 ID 和主节点公有 DNS(托管集群的 Amazon EC2 实例的端点)。您将在后面的步骤中用到这些信息。