Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

Amazon EMR 可以接受的输入类型

集群的默认输入格式是文本文件,每行都使用换行符 (\n) 分隔,这是最常用的输入格式。

如果您输入的数据格式不是默认的文本文件,可以使用 Hadoop 接口 InputFormat 指定其他输入类型。您甚至可以创建 FileInputFormat 类型的子类,用于处理自定义数据类型。有关更多信息,请参阅 http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html

如果您正在使用 Hive,可以使用串行器/解串器 (SerDe) 将给定格式的数据读入 HDFS。有关更多信息,请参阅 https://cwiki.apache.org/confluence/display/Hive/SerDe