

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# Amazon EMR 可以接受的输入类型
<a name="emr-plan-input-accept"></a>

集群的默认输入格式是文本文件，每行都使用换行符 (\\n) 分隔，这是最常用的输入格式。

如果您输入的数据格式不是默认的文本文件，可以使用 Hadoop 接口 `InputFormat` 指定其它输入类型。您甚至可以创建 `FileInputFormat` 类型的子类，用于处理自定义数据类型。欲了解更多信息，请参阅 [http://hadoop.apache。 org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html。](http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/InputFormat.html)

如果您使用的是 Hive，则可以使用 a serializer/deserializer (SerDe) 将数据从给定格式读入 HDFS。欲了解更多信息，请参阅 [https://cwiki.apache。 org/confluence/display/Hive/SerDe](https://cwiki.apache.org/confluence/display/Hive/SerDe)。