重复数据删除 - Amazon FSx for Windows File Server
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

重复数据删除

大型数据集通常具有冗余数据,这增加了数据存储成本。例如,对于用户文件共享,多个用户可以存储同一文件的多个副本或版本。对于软件开发份额,许多二进制文件在构建之间保持不变。

您可以通过为文件系统启用重复数据删除功能来降低数据存储成本。重复数据删除通过仅存储数据集的重复部分一次来减少或消除冗余数据。默认情况下,当您使用重复数据删除时,会启用数据压缩,通过在重复数据删除后压缩数据,进一步减少数据存储量。重复数据消除作为后台进程运行,持续自动扫描和优化您的文件系统,并且对您的用户和连接的客户端是透明的。

使用重复数据删除可以节省多少存储空间取决于数据集的性质,包括跨文件存在多少重复。一般用途文件共享的典型节约率平均为 50-60%。在份额范围内,节省的费用从用户文档的 30-50% 到软件开发数据集的 70-80% 不等。您可以使用Measure-FSxDedupFileMetadata命令如下所述。

您还可以自定义重复数据删除以满足特定的存储需求。例如,您可以将重复数据消除配置为仅在某些文件类型上运行,也可以创建自定义作业时间表。由于重复数据消除作业会消耗文件服务器资源,因此我们建议使用Get-FSxDedupStatus命令如下所述。

有关重复数据删除的更多信息,请参阅 Microsoft了解重复数据删除文档中)。

注意

如果您在成功运行重复数据消除作业时遇到问题,请参阅重复数据删除故障排除.

警告

不建议使用重复数据删除功能运行某些 Robocopy 命令,因为这些命令可能会影响区块存储的数据完整性。有关更多信息,请参阅 Microsoft重复数据删除互操作性文档中)。

启用重复数据删除

您可以使用 Amazon FSx for Windows File Server 文件共享启用重复数据删除Enable-FSxDedup命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }

启用重复数据删除后,将创建默认时间表和配置。您可以使用以下命令创建、修改和删除时间表和配置。

请注意,创建新的自定义重复数据消除作业时间表不会覆盖或删除现有的默认计划。在创建自定义重复数据消除作业之前,如果不需要默认作业,则可能需要禁用它。

您可以使用Disable-FSxDedup命令在文件系统上完全禁用重复数据消除。

注意

当您增加文件系统的存储容量时,Amazon FSx 会在将数据从旧磁盘迁移到新的更大磁盘的存储优化过程中取消现有的重复数据消除任务。在此期间,OptimizedFilesSavingsRate值为 0。存储容量增加优化任务完成后,Amazon FSx 将恢复重复数据删除。有关增加存储容量和优化存储的更多信息,请参阅管理存储容量.

制定重复数据消除计划

尽管默认计划在大多数情况下都能正常工作,但您可以使用New-FsxDedupSchedule命令,如下所示。重复数据删除计划使用 UTC 时间。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { New-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Wed,Sat -Start 08:00 -DurationHours 7 }

完成后,此命令将创建一个名为的计划CustomOptimization在星期一、星期三和星期六运行,作业在每天上午 8:00 (UTC) 启动,最长持续时间为 7 小时,如果作业仍在运行,则在此之后,作业将停止。

修改重复数据消除计划

您可以使用修改现有的重复数据删除计划Set-FsxDedupSchedule命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Set-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 09:00 -DurationHours 9 }

此命令修改现有的CustomOptimization计划在星期一至星期三和星期六的某天运行,在每天上午 9:00 (UTC) 启动作业,最长持续时间为 9 小时,如果作业仍在运行,则在此之后将停止作业。

要修改优化前的最短文件保存期限设置,请使用Set-FSxDedupConfiguration命令。

查看节省的空间量

要查看通过运行重复数据消除节省的磁盘空间量,请使用Get-FSxDedupStatus命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FsxRemoteAdmin -ScriptBlock { Get-FSxDedupStatus } | select OptimizedFilesCount,OptimizedFilesSize,SavedSpace,OptimizedFilesSavingsRate OptimizedFilesCount OptimizedFilesSize SavedSpace OptimizedFilesSavingsRate ------------------- ------------------ ---------- ------------------------- 12587 31163594 25944826 83
注意

以下参数的命令响应中显示的值不可靠,您不应使用这些值:容量, FreeSpace、 UsedSpace、 UnoptimizedSize, 和 SavingsRate.

管理重复数据删除

您可以使用 Amazon FSx CLI 管理文件系统上的重复数据消除,以便在上进行远程管理 PowerShell. 要了解如何使用此 CLI,请参阅开始使用 Amazon FSx CLI 进行远程管理 PowerShell.

以下是可用于重复数据删除的命令。

重复数据删除命令 描述

Enable-FSxDedup

在文件共享上启用重复数据消除。启用重复数据删除后,默认启用重复数据消除后的数据压缩。

Disable-FSxDedup

在文件共享上禁用重复数据消除。

Get-FSxDedupConfiguration

检索重复数据消除配置信息,包括用于优化的最小文件大小和期限、压缩设置以及排除的文件类型和文件夹。

Set-FSxDedupConfiguration

更改重复数据消除配置设置,包括最小文件大小和优化期限、压缩设置以及排除的文件类型和文件夹。

Get-FSxDedupStatus

检索重复数据消除状态,并包含只读属性,这些属性描述了文件系统上的优化节省和状态、时间以及文件系统上最后作业的完成状态。

Get-FSxDedupMetadata

检索重复数据消除优化元数据。

Update-FSxDedupStatus

计算和检索更新的重复数据消除节省信息。

Measure-FSxDedupFileMetadata

测量并检索在删除一组文件夹后可以在文件系统上回收的潜在存储空间。文件通常包含在其他文件夹之间共享的区块,重复数据消除引擎会计算出哪些区块是唯一的,哪些区块将被删除。

Get-FSxDedupSchedule

检索当前定义的重复数据消除计划。

New-FSxDedupSchedule

创建和自定义重复数据消除计划。

Set-FSxDedupSchedule

更改现有重复数据消除计划的配置设置。

Remove-FSxDedupSchedule

删除重复数据删除计划。

Get-FSxDedupJob

获取当前正在运行或排队的所有重复数据消除作业的状态和信息。

Stop-FSxDedupJob

取消一个或多个指定的重复数据消除作业。

每个命令的联机帮助提供了所有命令选项的参考。要访问此帮助,请运行命令-?,例如Enable-FSxDedup -?.