

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 通过数据分区加速迁移
通过分区加速迁移

对于大规模迁移，我们建议使用多个 DataSync任务对数据集进行分区。将源数据划分到多个任务（可能还有代理）中，可以并行处理传输并缩短迁移时间。

分区还可以帮助您保持在 DataSync [配额](datasync-limits.md)范围内，并简化对任务的监控和调试。

下图显示了如何使用多个 DataSync 任务和代理从同一个源存储位置传输数据。在这种情况下，各项任务都专注于源位置的特定文件夹。有关这些方法的更多信息和示例，请参阅[如何使用横向 Amazon DataSync 扩展架构加速数据传输](https://www.amazonaws.cn/blogs/storage/how-to-accelerate-your-data-transfers-with-aws-datasync-scale-out-architectures/)。

![\[该图显示了一种 DataSync 用于对源数据进行分区的方法，以帮助加快大规模迁移。\]](http://docs.amazonaws.cn/datasync/latest/userguide/images/datasync-partition-by-folder.png)


## 按文件夹或前缀对数据集进行分区


创建 DataSync 源位置时，您可以指定从中 DataSync 读取的文件夹、目录或前缀。例如，如果要迁移具有顶级目录的文件共享，则可创建多个位置来指定不同的目录路径。然后，您可以在迁移期间使用这些位置运行多个 DataSync任务。

## 使用筛选条件对数据集进行分区


您可以应用[筛选条件](filtering.md)，在传输中包含或排除源位置的数据。在大规模迁移的背景下，筛选条件有助于将任务范围限定到数据集的特定部分。

例如，如果要迁移按年份组织的存档数据，则可创建一个包含筛选条件来匹配特定年份或多个年份。此外还可以在每次运行任务时修改筛选条件以匹配不同的年份。

## 使用清单对数据集进行分区


[清单](transferring-with-manifest.md)是您要传输的文件或对象 DataSync 的列表。有了清单，就 DataSync 不必读取源位置的所有内容就能确定要传输的内容。

您可以根据源存储的清单创建清单，也可以通过事件驱动的方法创建清单（例如，参见[Amazon DataSync 使用数亿个对象实现](https://www.amazonaws.cn/blogs/storage/implementing-aws-datasync-with-hundreds-of-millions-of-objects/)）。也可以在每次启动任务时使用不同的清单，这样就可以在同一个任务中传输不同的数据集。