重复数据删除 - Amazon FSx for Windows File Server
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

重复数据删除

大型数据集中通常存在冗余数据,这会增加数据存储成本。例如,多个用户可以通过用户文件共享来存储同一文件的多个副本或版本。软件开发共享使得许多二进制文件在各个构建中都保持不变。

您可以通过为文件系统开启重复数据删除功能来降低数据存储成本。重复数据删除只存储一次数据集的重复部分,从而减少或消除多余的数据。系统会在您使用重复数据删除功能时默认启用数据压缩,而在重复数据删除后进行压缩的操作会进一步减少数据存储量。重复数据删除会作为后台进程运行,能够持续、自动地扫描和优化您的文件系统,并且这对您的用户和连接的客户端是透明的。

能够通过重复数据删除节省的存储容量取决于数据集的性质,包括文件之间存在的重复数据量。通用文件共享通常可节省 50-60% 的成本。在共享中,节省范围为用户文档的 30–50% 到软件开发数据集的 70–80%。您可以使用下述命令 Measure-FSxDedupFileMetadata 来衡量重复数据删除可能实现的节省量。

您还可以自定义重复数据删除以满足您的特定存储需求。例如,您可以将其配置为仅在特定文件类型上运行重复数据删除,也可以创建自定义作业计划。由于重复数据删除作业会消耗文件服务器资源,因此我们建议使用下述命令 Get-FSxDedupStatus 来监控重复数据删除作业的状态。

有关重复数据删除的更多信息,请参阅 Microsoft 了解重复数据删除文档。

注意

请参阅我们的最佳实践:使用重复数据删除。如果您在成功运行重复数据删除作业时遇到问题,请参阅重复数据删除问题排查

警告

我们不建议您运行某些带有重复数据删除功能的 Robocopy 命令,因为这些命令可能会影响 Chunk Store 的数据完整性。有关更多信息,请参阅 Microsoft 重复数据删除互操作性文档。

启用重复数据删除

您可以使用命令 Enable-FSxDedup 在 Amazon FSx for Windows File Server 文件共享上启用重复数据删除,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }

启用重复数据删除后,系统将创建默认计划和配置。您可以使用以下命令创建、修改和删除计划和配置。

您可以使用命令 Disable-FSxDedup 在文件系统上完全禁用重复数据删除。

创建重复数据删除计划

尽管在大多数情况下默认计划都能够运行良好,但您可以使用 New-FsxDedupSchedule 命令创建新的重复数据删除计划,如下所示。重复数据删除计划将使用 UTC 时间。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { New-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Wed,Sat -Start 08:00 -DurationHours 7 }

此命令会创建一个名为 CustomOptimization 的计划,该计划将在星期一、星期三和星期六运行,每天上午 8:00(UTC)开始作业,最长持续时间为 7 小时,到时即使未完成运行也会停止作业。

请注意,创建新的自定义重复数据删除作业计划不会覆盖或删除现有的默认计划。在创建自定义重复数据删除任务之前,您可能需要禁用不需要的默认作业。

您可以使用 Set-FsxDedupSchedule 命令禁用默认的重复数据删除计划,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Set-FSxDedupSchedule -Name “BackgroundOptimization” -Enabled $false}

您可以使用 Remove-FSxDedupSchedule -Name "ScheduleName" 命令删除重复数据删除计划。请注意,您无法修改或删除默认的 BackgroundOptimization 重复数据删除计划,所以需要将其禁用。

修改重复数据删除计划

您可以使用 Set-FsxDedupSchedule 命令修改现有的重复数据删除计划,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Set-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 09:00 -DurationHours 9 }

此命令会将现有的 CustomOptimization 计划修改为在星期一至星期三以及星期六运行,每天上午 9:00(UTC)开始作业,最长持续时间为 9 小时,到时即使未完成运行也会停止作业。

要在优化设置之前修改最小文件期限,请使用 Set-FSxDedupConfiguration 命令。

查看节省的空间量

要查看通过运行重复数据删除节省的磁盘空间量,请使用 Get-FSxDedupStatus 命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FsxRemoteAdmin -ScriptBlock { Get-FSxDedupStatus } | select OptimizedFilesCount,OptimizedFilesSize,SavedSpace,OptimizedFilesSavingsRate OptimizedFilesCount OptimizedFilesSize SavedSpace OptimizedFilesSavingsRate ------------------- ------------------ ---------- ------------------------- 12587 31163594 25944826 83
注意

命令响应中显示的以下参数的值不可靠,您不应使用这些值:容量 FreeSpace、 UsedSpace UnoptimizedSize、和 SavingsRate。

管理重复数据删除

您可以使用 Amazon FSx CLI 来管理文件系统上的重复数据删除,以便在上进行远程 PowerShell管理。要了解如何使用此 CLI,请参阅开始使用 Amazon FSx CLI 进行远程管理 PowerShell

以下是可用于重复数据删除的命令。

重复数据删除命令 描述

Enable-FSxDedup

在文件共享上启用重复数据删除。启用重复数据删除时,系统会默认在重复数据删除后启用数据压缩。

Disable-FSxDedup

在文件共享上禁用重复数据删除。

Get-FSxDedupConfiguration

检索重复数据删除的配置信息,包括用于优化的最小文件大小和期限、压缩设置以及已排除的文件类型和文件夹。

Set-FSxDedupConfiguration

更改重复数据删除的配置设置,包括用于优化的最小文件大小和期限、压缩设置以及已排除的文件类型和文件夹。

Get-FSxDedupStatus

检索重复数据删除状态,并包含描述文件系统的优化节省量和状态的只读属性、时间,以及文件系统上最后一个作业的完成状态。

Get-FSxDedupMetadata

检索重复数据删除的优化元数据。

Update-FSxDedupStatus

计算和检索更新后的重复数据删除节省量信息。

Measure-FSxDedupFileMetadata

衡量和检索在删除一组文件夹后能够在文件系统上回收的潜在存储空间。文件中通常包含与其他文件夹共享的数据块,重复数据删除引擎会计算出哪些是将被删除的唯一数据块。

Get-FSxDedupSchedule

检索当前已定义的重复数据删除计划。

New-FSxDedupSchedule

创建和自定义重复数据删除计划。

Set-FSxDedupSchedule

更改现有重复数据删除计划的配置设置。

Remove-FSxDedupSchedule

删除重复数据删除计划。

Get-FSxDedupJob

获取所有当前正在运行或排队的重复数据删除作业的状态和信息。

Stop-FSxDedupJob

取消一个或多个指定的重复数据删除作业。

每个命令的联机帮助中都提供所有命令选项的参考信息。要访问此帮助,请运行包含 -? 的命令,例如 Enable-FSxDedup -?