Amazon EMR 可以接受的输入类型
集群的默认输入格式是文本文件,每行都使用换行符 (\n) 分隔,这是最常用的输入格式。
如果您输入的数据格式不是默认的文本文件,可以使用 Hadoop 接口 InputFormat
指定其它输入类型。您甚至可以创建 FileInputFormat
类型的子类,用于处理自定义数据类型。有关更多信息,请参阅 http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html
如果您正在使用 Hive,可以使用串行器/解串器 (SerDe) 将给定格式的数据读入 HDFS。有关更多信息,请参阅 https://cwiki.apache.org/confluence/display/Hive/SerDe