使用 Amazon DataSync 将现有文件迁移到 FSx for Windows File Server
我们建议使用 Amazon DataSync 在 FSx for Windows File Server 文件系统之间传输数据。DataSync 是一种数据传输服务,可以简化、自动执行并加快在本地存储系统与 Amazon 存储服务之间通过互联网或 Amazon Direct Connect 移动和复制数据。DataSync 可以传输您的文件系统数据以及元数据,例如,所有权、时间戳和访问权限。
DataSync 支持复制 NTFS 访问控制列表(ACL),还支持复制文件审计控制信息(也称为 NTFS 系统访问控制列表,SACL),管理员将使用这些信息来控制用户尝试访问文件的审计日志记录。
您可以使用 DataSync 在两个 FSx for Windows File Server 文件系统之间传输文件,也可以将数据移动到另一个 Amazon Web Services 区域 或 Amazon 账户中的文件系统。您可以使用 DataSync 与 FSx for Windows File Server 文件系统执行其他任务。例如,您可以执行一次性数据迁移、定期摄取分布式工作负载的数据以及按计划复制以实现数据保护与恢复。
在 Amazon DataSync 中,FSx for Windows File Server 的位置是 FSx for Windows File Server 的端点。可以在 FSx for Windows File Server 的位置和其他文件系统的位置之间传输文件。有关更多信息,请参阅《Amazon DataSync 用户指南》中的使用位置。
DataSync 使用服务器消息块(SMB)协议访问 FSx for Windows File Server。它使用您在 Amazon DataSync 控制台或 Amazon CLI 中配置的用户名和密码来进行身份验证。
先决条件
要将数据迁移至 Amazon FSx for Windows File Server 设置,需要具有满足 DataSync 要求的服务器和网络。要了解更多信息,请参阅《Amazon DataSync 用户指南》中的 DataSync 要求。
如果要执行大型数据迁移或迁移涉及许多小文件,我们建议使用具有 SSD 存储类型的 Amazon FSx 文件系统。这是因为 DataSync 任务涉及扫描文件元数据,这可能会耗尽 HDD 文件系统的磁盘 IOPS 限额,从而导致迁移持续时间长和影响文件系统性能。有关更多信息,请参阅:将现有文件存储迁移到 FSx for Windows File Server 的最佳实践。
如果您的数据集主要由小文件组成,文件数以百万计,或者您的可用网络带宽大于单个 DataSync 任务可消耗的带宽,则还可以使用横向扩展架构加速数据传输。有关更多信息,请参阅:How to accelerate your data transfers with Amazon DataSync scale out architectures
可以使用 FSx 性能指标监控文件系统的磁盘 I/O 利用率。
使用 DataSync 迁移文件的基本步骤
要使用 DataSync 将文件从源位置传输到目标位置,请执行以下基本步骤:
-
在您的环境中下载并部署代理,然后激活。
-
创建并配置源和目标位置。
-
创建并配置任务。
-
运行任务,将文件从源传输到目标。
要了解如何将文件从现有本地文件系统传输到 FSx for Windows File Server,请参阅《Amazon DataSync 用户指南》中的在行管理的存储和 Amazon 之间传输数据、为 SMB 创建位置和为 Amazon FSx for Windows File Server 创建位置。
要了解如何将文件从现有云端文件系统传输到 FSx for Windows File Server,请参阅《Amazon DataSync 用户指南》中的将您的代理部署为 Amazon EC2 实例。
在两个 Amazon FSx 文件系统之间迁移
可以使用 DataSync 在两个 Amazon FSx 文件系统之间迁移数据。如果您需要将工作负载从现有文件系统移至具有不同配置的新文件系统(例如从单可用区配置移至多可用区配置),这会很有帮助。此外,也可以使用 DataSync 在两个文件系统之间分配工作负载。
以下是迁移过程的示例概述:
-
为源和目标文件系统创建 DataSync 位置。请注意,源和目标必须属于同一个 Active Directory(AD)域,或者各自的域之间必须具有 AD 信任关系。
-
创建并运行 DataSync 任务,将数据从源位置传输到目标位置。可以将该任务作为一次性实例运行,也可以将该任务设置为按配置的计划自动运行。
-
任务成功完成后,目标文件系统中的数据将是源文件系统的精确副本。请注意,您需要暂时暂停源文件系统上的任何写入活动或文件更新才能完成该任务。然后,可以割接到目标文件系统并删除源文件系统。
在从生产文件系统迁移之前,可以在从最近备份还原的文件系统上测试迁移过程。这样,可以估计数据传输过程所需的时间,并提前排查 DataSync 错误。
为了最大限度地缩短割接时间,可以提前运行 DataSync 任务,将大部分数据从源文件系统移至目标文件系统。停止传输到源文件系统的流量后,可以运行最后一次任务传输,以同步自停止流量以来新更新的任何数据,然后割接到目标文件系统。
可以将 DataSync 任务配置为仅在某些目录中运行,也可以配置为包含或排除某些路径。如果并行运行多个任务,或者要迁移部分数据,这会非常有用。
可以在目标文件系统上创建与源文件系统的 DNS 名称相同的 DNS 别名。这样,您的终端用户和应用程序可以继续使用源文件系统的 DNS 名称访问文件数据。有关如何设置 DNS 别名的更多信息,请参阅:使用 DNS 别名访问数据。
在执行这种类型的迁移时,我们建议执行以下操作:
-
安排迁移,避免任何文件系统备份、每周维护时段和
Data Deduplication
作业。具体而言,如果Data Deduplication GarbageCollection
作业与您的计划迁移同时执行,我们建议禁用该作业。 -
对源文件系统和目标文件系统使用 SSD 存储类型。可以通过从备份还原,在 HDD 和 SSD 存储类型之间切换。有关更多信息,请参阅:将现有文件存储迁移到 FSx for Windows File Server。
-
为源文件系统和目标文件系统配置足够的吞吐能力,以便能够处理需要传输的数据量。在 DataSync 任务过程中,监控源文件系统和目标文件系统的性能利用率。有关更多信息,请参阅:使用 Amazon CloudWatch 监控。
-
设置 DataSync 监控以帮助您了解正在进行的任务的进度。也可以将 DataSync 日志发送到 Amazon CloudWatch Logs 组,以便在遇到任何错误时帮助您调试任务。