重复数据删除数据 - Amazon FSx for Windows File Server
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 Amazon Web Services 服务入门

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

重复数据删除数据

大型数据集通常具有冗余数据,从而增加了数据存储成本。例如,对于用户文件共享,多个用户可以存储同一文件的多个副本或版本。通过软件开发共享,许多二进制文件在构建过程中保持不变。

您可以通过为文件系统启用重复数据消除功能来降低数据存储成本。重复数据删除数据通过仅存储数据集的重复部分来减少或消除冗余数据。在使用重复数据消除时,默认情况下会启用数据压缩,从而通过在重复数据消除后压缩数据进一步减少数据存储量。由于重复数据消除作为后台进程运行,因此不会对文件系统的性能产生重大影响。它对您的用户和连接的客户端也是透明的。启用重复数据消除后,它会持续自动扫描并在后台优化您的文件系统。

通过重复数据消除可以实现的存储节约取决于数据集的性质,包括跨文件存在多少重复。通用文件共享的典型平均节省 50-60%。在共享内部,用户文档的节省范围从 30-50% 到软件开发数据集的节省 70-80% 不等。

有关如何实施和管理重复数据消除的更多信息,请参阅 Microsoft了解重复数据删除数据文档中)。

启用重复数据删除功能

您可以使用 Amazon FSx for Windows File Server 共享上启用重复数据消除Enable-FSxDedup命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }

启用重复数据消除时,将执行默认的重复数据消除计划。计划使用协调世界时 (UTC)。此外,优化前的最小文件使用时间设置为 3 天。默认情况下,还会启用重复数据消除后的数据压缩。

注意

当您增加文件系统的存储容量时,Amazon FSX 会在存储优化过程中取消现有的重复数据消除作业,该过程将数据从旧磁盘迁移到新的更大磁盘。在此期间,OptimizedFilesSavingsRate值是 0。一旦存储容量增加优化任务完成,Amazon FSX 将恢复重复数据消除。有关增加存储容量和存储优化的详细信息,请参阅管理存储容量

创建重复数据消除计划

即使默认计划在大多数情况下运行良好,您也可以使用New-FsxDedupSchedule命令,如下所示。重复数据消除计划使用 UTC 时间。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { New-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Wed,Sat -Start 08:00 -DurationHours 7 }

此命令创建名为CustomOptimization,在星期一、星期三和星期六运行,每天上午 8:00 (UTC) 开始作业,最长持续时间为 7 小时,之后作业如果仍在运行,则会停止。

修改重复数据消除计划

您可以使用Set-FsxDedupSchedule命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Set-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 09:00 -DurationHours 9 }

此命令修改现有的CustomOptimization计划在星期一至星期三和星期六运行,从每天 9:00 上午 (UTC) 开始作业,最长持续时间为 9 小时,之后作业如果仍在运行,则会停止。

要在优化设置之前修改最短文件时间,请使用Set-FSxDedupConfiguration命令。

检索重复数据消除时间表

您可以使用Get-FSxDedupSchedule命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Get-FSxDedupSchedule }

输出列出了重复数据消除计划及其配置。

检索重复数据消除配置

您可以使用Get-FsxDedupConfiguration命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Get-FsxDeDupConfiguration }

输出将列出重复数据消除配置参数及其当前值。

查看节省的空间量

要查看运行重复数据消除所节省的磁盘空间量,请使用Get-FSxDedupStatus命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FsxRemoteAdmin -ScriptBlock { Get-FSxDedupStatus } | select OptimizedFilesCount,OptimizedFilesSize,SavedSpace,OptimizedFilesSavingsRate OptimizedFilesCount OptimizedFilesSize SavedSpace OptimizedFilesSavingsRate ------------------- ------------------ ---------- ------------------------- 12587 31163594 25944826 83
注意

命令响应中显示的以下参数的值不可靠,因此不应使用这些值:容量、自由空间、已用空间、未优化大小和储蓄率。

管理重复数据删除数据

您可以使用 Amazon FSX CLI 在 PowerShell 上进行远程管理,在文件系统上管理重复数据消除。要了解如何使用此 CLI,请参阅用于在 PowerShell 上进行远程管理的亚马逊 FSX CLI 入门

以下是可用于重复数据消除的命令。

重复数据删除命令 说明

Enable-FSxDedup

在文件共享上启用重复数据消除。默认情况下,启用重复数据消除后的数据压缩功能会启用。

Disable-FSxDedup

禁用文件共享上的重复数据消除。

Get-FSxDedupConfiguration

检索重复数据消除配置信息,包括用于优化的最小文件大小和使用期限、压缩设置以及排除的文件类型和文件夹。

Set-FSxDedupConfiguration

更改重复数据消除配置设置,包括最小文件大小和优化期限、压缩设置以及排除的文件类型和文件夹。

Get-FSxDedupStatus

检索重复数据消除状态,并包括只读属性,这些属性描述文件系统上的优化节省和状态、时间和文件系统上最后一个作业的完成状态。

Get-FSxDedupMetadata

检索重复数据消除优化元数据。

Update-FSxDedupStatus

计算和检索更新的重复数据消除节约信息。

Measure-FSxDedupFileMetadata

测量并检索在删除一组文件夹时可在文件系统上回收的潜在存储空间。文件通常具有跨其他文件夹共享的块,重复数据消除引擎会计算哪些块是唯一的,哪些块将被删除。

Get-FSxDedupSchedule

检索当前定义的重复数据消除计划。

New-FSxDedupSchedule

创建和自定义重复数据消除计划。

Set-FSxDedupSchedule

更改现有重复数据消除计划的配置设置。

Remove-FSxDedupSchedule

删除重复数据消除计划。

Get-FSxDedupJob

获取所有当前正在运行或排队的重复数据消除作业的状态和信息。

Stop-FSxDedupJob

取消一个或多个指定的重复数据消除作业。

注意

以下输出字段显示的值不代表实际值,您不应依赖它们:容量、自由空间、已用空间、未优化大小和储蓄率。

每个命令的联机帮助提供了所有命令选项的引用。要访问此帮助,请运行命令-?,例如,Enable-FSxDedup -?