使用 Amazon DataSync上载数据 - Amazon EMR
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 Amazon DataSync上载数据

Amazon DataSync 是一项在线数据传输服务,可简化、自动化和加速在本地存储和存储服务之间或 Amazon 存储服务之间 Amazon 移动数据的过程。 DataSync 支持各种本地存储系统,例如 Hadoop 分布式文件系统 (HDFS)、NAS 文件服务器和自我管理的对象存储。

数据导入到集群的最常见方法是将数据上载到 Amazon S3,然后使用 Amazon EMR 的内置功能将数据加载到集群上。

DataSync 可以帮助您完成以下任务:

  • 将 Hadoop 集群上的 HDFS 复制到 Amazon S3 以实现业务连续性

  • 将 HDFS 复制到 Amazon S3 以填充数据湖

  • 在 Hadoop 集群的 HDFS 与 Amazon S3 之间传输数据以进行分析和处理

要将数据上传到 S3 存储桶,请先在本地存储所在网络中部署一个或多个 DataSync 代理。代理是用于从自行管理位置读取数据或向自行管理位置写入数据的虚拟机 (VM)。然后,您可以在 S3 存储桶 Amazon Web Services 区域 所在的 Amazon Web Services 账户 和位置激活代理。

激活代理后,您可以为本地存储创建源位置,为 S3 存储桶创建目标位置,还要创建一个任务。任务 由两个位置(源和目标)和一组用于控制任务行为的默认选项组成。

最后,运行 DataSync 任务将数据从源传输到目的地。

有关更多信息,请参阅 Amazon DataSync入门