重复数据删除 - Amazon FSx for Windows File Server
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

重复数据删除

大型数据集通常具有冗余数据,这增加了数据存储成本。例如,对于用户文件共享,多个用户可以存储同一文件的许多副本或版本。随着软件开发份额,许多二进制文件从构建到构建都保持不变。

您可以通过为文件系统启用重复数据消除功能来降低数据存储成本。重复数据删除通过仅存储数据集的重复部分一次来减少或消除冗余数据。在使用重复数据消除时,默认情况下会启用数据压缩,通过在重复数据删除后压缩数据来进一步减少数据存储量。重复数据消除作为后台进程运行,该过程可持续地自动扫描和优化文件系统,并且对用户和连接的客户端是透明的。

使用重复数据删除可以实现的存储节省取决于数据集的性质,包括跨文件存在多少重复。通用文件共享的典型节省平均 50—60%。在股票方面,用户文档的节省范围从 30%-50% 到软件开发数据集的 70—80% 不等。您可以使用Measure-FSxDedupFileMetadata下面描述的命令。

您还可以自定义重复数据消除以满足特定的存储需求。例如,您可以将重复数据删除配置为仅在某些文件类型上运行,也可以创建自定义作业计划。由于重复数据消除作业可能会占用文件服务器资源,因此我们建议使用Get-FSxDedupStatus下面描述的命令。

有关重复数据删除的更多信息,请参阅 Microsoft了解重复数据删除文档中)。

启用重复数据删除

您可以使用在 Amazon FSx for Windows File Server 文件共享上启用重复数据删除功能Enable-FSxDedup命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }

启用重复数据消除时,默认的数据重复数据删除计划就绪。该计划使用协调世界时 (UTC)。此外,优化之前的最小文件使用期限设置为 3 天。默认情况下,重复数据删除后的数据压缩也处于启

注意

当您增加文件系统的存储容量时,Amazon FSx 会在将数据从旧磁盘迁移到新的、更大的磁盘的存储优化过程中取消现有的重复数据消除作业。在此期间,OptimizedFilesSavingsRate值为 0。存储容量增加优化任务完成后,Amazon FSx 将恢复重复数据消除。有关增加存储容量和存储优化的更多信息,请参阅。管理存储容量.

创建重复数据消除计划

尽管默认时间表在大多数情况下运行良好,但您可以使用New-FsxDedupSchedule命令,如下所示。重复数据删除计划使用 UTC 时间。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { New-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Wed,Sat -Start 08:00 -DurationHours 7 }

此命令将创建一个名为的计划CustomOptimization运行时间为周一、周三和周六,每天早上 8:00 (UTC) 开始作业,最长持续时间为 7 小时,如果作业仍在运行,则该作业将停止。

修改重复数据消除计划

您可以使用修改现有重复数据删除计划,请使用Set-FsxDedupSchedule命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Set-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 09:00 -DurationHours 9 }

此命令修改现有的CustomOptimization计划在周一至周三和周六的日子运行,每天上午 9:00 (UTC) 开始作业,最长持续时间为 9 小时,如果作业仍在运行,则该作业将停止。

要在优化设置之前修改最短文件期限,请使用Set-FSxDedupConfiguration命令。

检索重复数据消除时间表

您可以使用检索文件系统的数据重复数据删除计划。Get-FSxDedupSchedule命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Get-FSxDedupSchedule }

输出中列出了重复数据删除计划及其配置。

检索重复数据删除配置

您可以使用检索文件系统的数据重复数据删除配置。Get-FsxDedupConfiguration命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Get-FsxDeDupConfiguration }

输出列出了重复数据删除配置参数及其当前值。

查看已节省的空间量

要查看运行重复数据消除所节省的磁盘空间量,请使用Get-FSxDedupStatus命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FsxRemoteAdmin -ScriptBlock { Get-FSxDedupStatus } | select OptimizedFilesCount,OptimizedFilesSize,SavedSpace,OptimizedFilesSavingsRate OptimizedFilesCount OptimizedFilesSize SavedSpace OptimizedFilesSavingsRate ------------------- ------------------ ---------- ------------------------- 12587 31163594 25944826 83
注意

以下参数的命令响应中显示的值不可靠,您不应使用这些值:容量,FreeSpace、UsedSpace、UnoptimizedSize, 和SavingsRate.

管理重复数据删除

您可以使用 Amazon FSx CLI 在文件系统上管理重复数据消除功能,以进行远程管理PowerShell. 要了解如何使用此 CLI,请参阅。开始使用 Amazon FSx CLI 进行远程管理PowerShell.

以下是可用于重复数据删除的命令。

命令重复数据删除 说明

Enable-FSxDedup

在文件共享上启用重复数据消除功能。启用重复数据消除时,默认情况下启用重复数据消除后的数据压缩。

Disable-FSxDedup

禁用文件共享上的重复数据消除功能。

Get-FSxDedupConfiguration

检索重复数据消除配置信息,包括用于优化的最小文件大小和使用时间、压缩设置以及排除的文件类型和文件夹。

Set-FSxDedupConfiguration

更改重复数据消除配置设置,包括优化的最小文件大小和使用时间、压缩设置以及排除的文件类型和文件夹。

Get-FSxDedupStatus

检索重复数据消除状态,并包括只读属性,这些属性描述了文件系统上最后一个作业的优化节省和状态、时间和完成状态。

Get-FSxDedupMetadata

检索重复数据消除优化元数据。

Update-FSxDedupStatus

计算和检索更新的重复数据消除节省的信息。

Measure-FSxDedupFileMetadata

如果删除一组文件夹,测量和检索可以在文件系统上回收的潜在存储空间。文件通常有在其他文件夹之间共享的区块,重复数据删除引擎会计算哪些区块是唯一的,将被删除。

Get-FSxDedupSchedule

检索当前定义的重复数据消除计划。

New-FSxDedupSchedule

创建和自定义重复数据消除计划。

Set-FSxDedupSchedule

更改现有重复数据消除计划的配置设置。

Remove-FSxDedupSchedule

删除重复数据删除计划。

Get-FSxDedupJob

获取所有当前正在运行或排队的重复数据消除作业的状态和信息。

Stop-FSxDedupJob

取消一个或多个指定的重复数据消除作业。

注意

为以下输出字段显示的值不代表实际值,您不应该依赖它们:容量,FreeSpace、UsedSpace、UnoptimizedSize, 和SavingsRate.

每个命令的联机帮助提供了所有命令选项的参考。要访问此帮助,请运行命令-?,例如Enable-FSxDedup -?.