Amazon EMR 可以接受的输入类型 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon EMR 可以接受的输入类型

集群的默认输入格式是文本文件,每行都使用换行符 (\n) 分隔,这是最常用的输入格式。

如果您输入的数据格式不是默认的文本文件,可以使用 Hadoop 接口 InputFormat 指定其它输入类型。您甚至可以创建 FileInputFormat 类型的子类,用于处理自定义数据类型。欲了解更多信息,请参阅 http://hadoop.apache.org/docs/current/api/org/apache/hadoop/mapred/ InputFormat .html。

如果您使用的是 Hive,则可以使用序列化器/反序列化器 (SerDe) 将数据从给定格式读入 HDFS。欲了解更多信息,请参阅 https://cwiki.apache.org/confluence/display/Hive/ SerDe