Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

准备输入数据

多数集群会先加载输入数据,然后再处理这些数据。为加载数据,必须定位在集群可以访问的位置,并且格式必须为集群可以处理的类型。最常见的情况是将输入数据上传到 Amazon S3。Amazon EMR 为您的集群提供了工具,用于从 Amazon S3 导入或读取数据。

Hadoop 中的默认输入格式是文本文件,然而您也可以自定义 Hadoop 从而使用工具导入以其他格式存储的数据。