如何将数据导入 Amazon EMR - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

如何将数据导入 Amazon EMR

Amazon EMR 提供了几种方法将数据导入到集群上。最常见的方法是将数据上载到 Amazon S3,然后使用 Amazon EMR 的内置功能将数据加载到集群上。您还可以使用 Hadoop 的 DistributedCache 功能将文件从分布式文件系统传输到本地文件系统。Amazon EMR(Hive 版本 0.7.1.1 及更高版本)提供的 Hive 实施包括一项功能,您可以使用此功能在 DynamoDB 和 Amazon EMR 集群之间导入和导出数据。如果有大量的本地数据要处理,您会发现 Amazon Direct Connect 服务非常有用。