重复数据删除 - Amazon FSx for Windows File Server
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

重复数据删除

大型数据集通常具有冗余数据,这会增加数据存储成本。例如,使用用户文件共享,多个用户可以存储同一文件的多个副本或版本。在软件开发共享中,许多二进制文件在不同版本之间保持不变。

您可以通过为文件系统启用重复数据删除来降低数据存储成本。重复数据删除仅存储数据集的重复部分一次,从而减少或消除冗余数据。使用重复数据删除功能时,默认情况下会启用数据压缩,通过在重复数据删除后压缩数据,进一步减少数据存储量。重复数据删除作为后台进程运行,可持续、自动地扫描和优化您的文件系统,并且对您的用户和连接的客户端是透明的。

重复数据删除可以节省多少存储空间取决于数据集的性质,包括文件间存在的重复次数。一般用途文件共享平均可节省 50-60% 的费用。在股份范围内,用户文档的节省幅度从 30% 到 50% 不等,软件开发数据集可节省 70-80%。您可以使用下述Measure-FSxDedupFileMetadata命令衡量重复数据删除可能节省的费用。

您还可以自定义重复数据删除以满足您的特定存储需求。例如,您可以将重复数据删除配置为仅在某些文件类型上运行,也可以创建自定义作业计划。由于重复数据删除作业可能会消耗文件服务器资源,因此我们建议使用下述Get-FSxDedupStatus命令监控重复数据删除作业的状态。

有关重复数据删除的更多信息,请参阅 Microsoft 了解重复数据删除(重复数据删除)文档。

注意

如果您在成功运行重复数据删除作业时遇到问题,请参阅解决重复数据删除问题

警告

不建议运行某些带有重复数据删除功能的 Robocopy 命令,因为这些命令可能会影响 Chunk Store 的数据完整性。有关更多信息,请参阅 Microsoft 重复数据删除互操作性文档。

启用重复数据删除

您可以使用Enable-FSxDedup命令在 Amazon FSx for Windows File Server 文件共享上启用重复数据删除,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }

启用重复数据删除后,将创建默认计划和配置。您可以使用以下命令创建、修改和删除计划和配置。

请注意,创建新的自定义重复数据删除作业计划不会覆盖或删除现有的默认时间表。在创建自定义重复数据删除作业之前,如果您不需要默认作业,则可能需要将其禁用。

您可以使用该Disable-FSxDedup命令在文件系统上完全禁用重复数据删除。

注意

当您增加文件系统的存储容量时,Amazon FSx 会在存储优化过程中取消现有的重复数据删除作业,即将数据从旧磁盘迁移到新的更大的磁盘。在此期间,该OptimizedFilesSavingsRate值为 0。存储容量增加优化任务完成后,Amazon FSx 将恢复重复数据删除。有关增加存储容量和存储优化的更多信息,请参阅,请参阅管理存储容量

创建重复数据删除计划

尽管默认计划在大多数情况下运行良好,但您可以使用New-FsxDedupSchedule命令创建新的重复数据删除计划,如下所示。重复数据删除计划使用 UTC 时间。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { New-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Wed,Sat -Start 08:00 -DurationHours 7 }

此命令创建了一个名为的计划CustomOptimization,该计划在周一、周三和周六运行,每天上午 8:00(UTC)开始作业,最长持续时间为 7 小时,如果作业仍在运行,则在此之后作业会停止。

修改重复数据删除计划

您可以使用Set-FsxDedupSchedule命令修改现有的重复数据删除计划,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Set-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 09:00 -DurationHours 9 }

此命令将现有CustomOptimization计划修改为在星期一至星期三和星期六运行,每天上午 9:00(UTC)开始作业,最长持续时间为 9 小时,如果作业仍在运行,则在此之后作业会停止。

要在优化设置之前修改最短文件期限,请使用Set-FSxDedupConfiguration命令。

查看节省的空间量

要查看运行重复数据删除所节省的磁盘空间量,请使用Get-FSxDedupStatus命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FsxRemoteAdmin -ScriptBlock { Get-FSxDedupStatus } | select OptimizedFilesCount,OptimizedFilesSize,SavedSpace,OptimizedFilesSavingsRate OptimizedFilesCount OptimizedFilesSize SavedSpace OptimizedFilesSavingsRate ------------------- ------------------ ---------- ------------------------- 12587 31163594 25944826 83
注意

以下参数的命令响应中显示的值不可靠,您不应使用这些值:Capacity FreeSpace、 UsedSpace、 UnoptimizedSize、和 SavingsRate。

管理重复数据删除

您可以使用 Amazon FSx CLI 在文件系统上管理重复数据删除以进行远程管理 PowerShell。要了解如何使用此 CLI,请参阅,请参阅,请参阅开始使用 Amazon FSx CLI 进行远程管理 PowerShell

以下是可用于重复数据删除的命令。

重复数据删除命令 描述

Enable-FSxDedup

在文件共享上启用重复数据删除。启用重复数据删除后,默认启用重复数据删除后的数据压缩。

Disable-FSxDedup

在文件共享上禁用重复数据删除。

Get-FSxDedupConfiguration

检索重复数据删除配置信息,包括用于优化的最小文件大小和期限、压缩设置以及排除的文件类型和文件夹。

Set-FSxDedupConfiguration

更改重复数据删除配置设置,包括用于优化的最小文件大小和期限、压缩设置以及排除的文件类型和文件夹。

Get-FSxDedupStatus

检索重复数据消除状态,包括只读属性,这些属性描述了文件系统的优化节省情况和状态、时间以及文件系统上最后一个作业的完成状态。

Get-FSxDedupMetadata

检索重复数据删除优化元数据。

Update-FSxDedupStatus

计算和检索更新的重复数据删除节省信息。

Measure-FSxDedupFileMetadata

测量并检索删除一组文件夹后可以在文件系统上回收的潜在存储空间。文件通常有区块在其他文件夹中共享,重复数据删除引擎会计算出哪些区块是唯一的,哪些区块将被删除。

Get-FSxDedupSchedule

检索当前定义的重复数据删除计划。

New-FSxDedupSchedule

创建和自定义重复数据删除计划。

Set-FSxDedupSchedule

更改现有重复数据删除计划的配置设置。

Remove-FSxDedupSchedule

删除重复数据删除计划。

Get-FSxDedupJob

获取所有当前正在运行或队列中的重复数据删除作业的状态和信息。

Stop-FSxDedupJob

取消一项或多项指定的重复数据删除作业。

每个命令的联机帮助提供了所有命令选项的参考。要访问此帮助,请使用运行命令-?,例如Enable-FSxDedup -?