数据重复数据删除 - Amazon FSx for Windows File Server
AWS 文档中描述的 AWS 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅中国的 AWS 服务入门

如果我们为英文版本指南提供翻译,那么如果存在任何冲突,将以英文版本指南为准。在提供翻译时使用机器翻译。

数据重复数据删除

大型数据集通常具有冗余数据,这增加了数据存储成本。例如,通过用户文件共享,多个用户可以存储同一文件的多个副本或版本。在软件开发共享的情况下,许多二进制文件从构建到构建保持不变。

您可以通过打开文件系统的数据重复数据删除功能来降低数据存储成本。数据重删 通过只存储数据集的重复部分来减少或消除冗余数据。由于数据删除重复数据作为后台进程运行,因此不会显著影响您文件系统的性能。它还对您的用户和已连接的客户端透明。启用数据重复数据删除后,它会在后台持续自动扫描和优化您的文件系统。

使用数据重复数据删除可以实现的存储节省取决于您数据集的性质,包括文件之间存在的重复程度。典型节省平均50–60%适用于通用文件共享。股份内,储蓄30起–用户文档的50%到70–80%用于软件开发数据集。

启用数据重复数据删除

您可以在 Amazon FSx for Windows File Server 文件共享,使用 Enable-FSxDedup 命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock {Enable-FsxDedup }

启用数据重复数据删除时,默认数据挖掘计划就位于。计划使用协调世界时(UTC)。此外,优化前的最小文件期限设置为3天。

设置数据重复数据删除计划

尽管默认计划在大多数情况下运行良好,但您可以使用 Set-FsxDedupSchedule,如下图所示。数据重复数据删除计划使用UTC时间。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { New-FSxDedupSchedule -Name "CustomOptimization" -Type Optimization -Days Mon,Tues,Wed,Sat -Start 08:00 -DurationHours 9 }

此命令修改默认值 BackgroundOptimization 计划在星期一至星期三和星期六运行,每天上午8:00(UTC)开始作业,最长持续时间为9小时,之后,如果作业仍在运行,作业将停止。

要修改优化设置前的最小文件期限,请使用 Set-FSxDedupConfiguration 命令。

正在检索Dedup配置

您可以使用 Get-FsxDedupConfiguration 命令,如下所示。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FSxRemoteAdmin -ScriptBlock { Get-FsxDeDupConfiguration }

输出列出dedup配置参数及其当前值。

注意

以下参数的命令响应中显示的值不可靠,并且您不应使用这些值: Capacity、FreeSpace、UsedSpace、UnsuminizedSize和SavingsRate。

要查看正在运行数据重复数据删除时所保存的磁盘空间量,请使用以下命令。

PS C:\Users\Admin> Invoke-Command -ComputerName amznfsxzzzzzzzz.corp.example.com -ConfigurationName FsxRemoteAdmin -ScriptBlock { Get-FSxDedupStatus } | select OptimizedFilesCount,OptimizedFilesSize,SavedSpace,OptimizedFilesSavingsRate OptimizedFilesCount OptimizedFilesSize SavedSpace OptimizedFilesSavingsRate ------------------- ------------------ ---------- ------------------------- 12587 31163594 25944826 83

管理数据重复数据删除

您可以使用管理文件系统上的数据重复数据删除 Amazon FSx 在PowerShell上进行远程管理的CLI。要了解如何使用此CLI,请参阅 开始使用 Amazon FSx 在PowerShell上进行远程管理的CLI.

以下是可用于数据重复数据删除的命令。

数据重删命令 Description

Enable-FSxDedup

启用文件共享中的数据重复数据删除。

Disable-FSxDedup

禁用文件共享中的数据重复数据删除。

Get-FSxDedupConfiguration

检索重复数据删除配置信息,包括最小文件大小和优化时间、压缩设置以及排除的文件类型和文件夹。

Set-FSxDedupConfiguration

更改重复数据删除配置设置,包括最小文件大小和优化时间、压缩设置以及排除的文件类型和文件夹。

Get-FSxDedupStatus

检索重复数据删除状态,并包括只读属性,这些属性描述了文件系统上的优化节省和状态、文件系统上最后一个作业的时间和完成状态。

Get-FSxDedupMetadata

检索重删优化元数据。

Update-FSxDedupStatus

计算和检索更新的数据重复数据删除节省信息。

Measure-FSxDedupFileMetadata

如果您删除一组文件夹,则测量并检索文件系统上可以恢复的潜在存储空间。文件通常具有跨其他文件夹共享的区块,重删引擎计算哪些区块是唯一的,将被删除。

Get-FSxDedupSchedule

检索当前定义的重复数据删除计划。

New-FSxDedupSchedule

创建和自定义数据重复数据删除计划。

Set-FSxDedupSchedule

更改现有数据重复数据删除计划的配置设置。

Remove-FSxDedupSchedule

删除重删计划。

Get-FSxDedupJob

获取所有当前正在运行或排队的重删作业的状态和信息。

Stop-FSxDedupJob

取消一个或多个指定的数据重复数据删除作业。

注意

以下输出字段所显示的值不代表实际值,您不应依赖这些值: Capacity、FreeSpace、UsedSpace、UnsuminizedSize和SavingsRate。

每个命令的联机帮助提供所有命令选项的参考。要访问此帮助,请运行命令 -?,例如 Enable-FSxDedup -?.