Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

如何将数据导入 Amazon EMR

Amazon EMR 提供了几种方法将数据导入到集群上。最常见的方法是将数据上传到 Amazon S3,然后使用 Amazon EMR 的内置功能将数据加载到集群上。您还可以使用 Hadoop 的分布式缓存功能将文件从分布式文件系统传输到本地文件系统。Amazon EMR(Hive 版本 0.7.1.1 及更高版本)提供的 Hive 实施包括一项功能,您可以使用此功能在 DynamoDB 和 Amazon EMR 集群之间导入和导出数据。如果有大量的本地数据要处理,您会发现 AWS Direct Connect 服务非常有用。