本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
如何将数据导入 Amazon EMR
Amazon EMR 提供了几种方法将数据导入到集群上。最常见的方法是将数据上载到 Amazon S3,然后使用 Amazon EMR 的内置功能将数据加载到集群上。您还可以使用 Hadoop 的 DistributedCache 功能将文件从分布式文件系统传输到本地文件系统。Amazon EMR(Hive 版本 0.7.1.1 及更高版本)提供的 Hive 实施包括一项功能,您可以使用此功能在 DynamoDB 和 Amazon EMR 集群之间导入和导出数据。如果有大量的本地数据要处理,您会发现 Amazon Direct Connect 服务非常有用。