Amazon EMR
管理指南
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 Amazon AWS 入门

如何将数据导入 Amazon EMR

Amazon EMR 提供了几种方法将数据导入到集群上。最常见的方法是将数据上传到 Amazon S3,然后使用 Amazon EMR 的内置功能将数据加载到集群上。您还可以使用 Hadoop 的分布式缓存功能将文件从分布式文件系统传输到本地文件系统。Amazon EMR (Hive 版本 0.7.1.1 及更高版本) 提供的 Hive 实施包括一项功能,您可以使用此功能在 DynamoDB 和 Amazon EMR 集群之间导入和导出数据。如果有大量的本地数据要处理,您会发现 AWS Direct Connect 服务非常有用。