使用上传数据 Amazon DataSync

Amazon DataSync 是一项在线数据传输服务，可简化、自动化和加速在本地存储和存储服务之间或 Amazon 存储服务之间 Amazon 移动数据的过程。 DataSync 支持各种本地存储系统，例如 Hadoop 分布式文件系统 (HDFS)、NAS 文件服务器和自我管理的对象存储。

数据导入到集群的最常见方法是将数据上载到 Amazon S3，然后使用 Amazon EMR 的内置功能将数据加载到集群上。

DataSync 可以帮助您完成以下任务：

将 Hadoop 集群上的 HDFS 复制到 Amazon S3 以实现业务连续性
将 HDFS 复制到 Amazon S3 以填充数据湖
在 Hadoop 集群的 HDFS 与 Amazon S3 之间传输数据以进行分析和处理

要将数据上传到 S3 存储桶，请先在本地存储所在网络中部署一个或多个 DataSync 代理。代理是用于从自行管理位置读取数据或向自行管理位置写入数据的虚拟机 (VM)。然后，您可以在 S3 存储桶 Amazon Web Services 区域所在的 Amazon Web Services 账户和位置激活代理。

激活代理后，您可以为本地存储创建源位置，为 S3 存储桶创建目标位置，还要创建一个任务。任务由两个位置（源和目标）和一组用于控制任务行为的默认选项组成。

最后，运行 DataSync 任务将数据从源传输到目的地。

有关更多信息，请参阅开始使用 Amazon DataSync。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

将数据上传到 S3 Express One Zone

使用 Amazon EMR 分布式缓存导入文件