本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
平衡工作负载
如果您的文件系统具有多个高可用性 (HA) 对,则其吞吐量和存储将分布在每个 HA 对中。 FSxfor 会在文件写入文件系统时ONTAP自动平衡文件,但是一旦添加 HA 对,您的工作负载数据和 I/O 将不再保持平衡。此外,在极少数情况下,工作负载数据或 I/O 可能会在文件系统的现有 HA 对之间失去平衡,从而影响工作负载的整体性能。如果工作负载不平衡,则可以在文件系统的每个 HA 对(及其相应的文件服务器和聚合,即构成主存储层的存储池)之间进行重新平衡。
主存储利用率平衡
文件系统的主存储容量在各个 HA 中之间平均分配给称为聚合的存储池中。每个 HA 对都有一个聚合。我们建议将主存储层的平均利用率持续保持在不高于 80% 的水平。对于具有多个 HA 对的文件系统,我们建议将每个聚合的平均利用率保持在 80% 以下。
保持 80% 的利用率可确保为新的传入数据预留可用空间,并为可能临时占用聚合上可用空间的维护操作保持合理的开销。
如果发现聚合不平衡,可以增加文件系统的主存储容量(相应地增加每个聚合的存储容量),或者也可以在聚合之间移动卷。有关更多信息,请参阅 在聚合之间移动卷。
文件服务器和磁盘性能利用率不平衡
文件系统的总性能能力(例如网络吞吐量、文件服务器到磁盘的吞吐量以及IOPS磁盘IOPS)在文件系统的 HA 对之间平均分配。对于各种性能限制,我们建议将平均利用率持续保持在 50% 以下(最大峰值利用率低于 80%),这既适用于文件系统文件服务器资源在所有 HA 对中的总体利用率,也适用于每个文件服务器的利用率。
如果您发现您的文件服务器性能利用率不平衡,且工作负载不平衡的文件服务器的持续利用率超过 80%,则可以使用和进一步诊断性能不平衡的原因ONTAPCLI并RESTAPI进行修复。下表列出了可能的不平衡指标以及进行进一步诊断的后续步骤。
如果文件系统... | 则... |
---|---|
文件服务器磁盘吞吐量或文件服务器磁盘IOPS不平衡 |
一部分 HA 对(即卷的一部分,其中含有大量正在访问的数据)上可能会出现 I/O 热点现象,这可能会限制工作负载的整体性能,因为它对部分 HA 对构成了瓶颈。对于各个高利用率文件服务器,请检查利用率最高的卷,查看聚合中哪些卷的活动最多。有关此过程的更多信息,请参阅重新平衡卷。 |
网络吞吐量不平衡,但您的文件服务器磁盘吞吐量、文件服务器磁盘IOPS或磁盘IOPS并非不平衡 |
数据在 HA 对之间均匀分布,但客户端分布不均匀。对于网络吞吐量利用率较高的文件服务器,请检查各个文件服务器的主要客户端,然后通过从这些客户端上卸载任何卷,并在不同 HA 对上挂载至不同的端点来重新平衡这些客户端。有关此过程的更多信息,请参阅重新平衡客户端。 |
将 CloudWatch 维度映射到ONTAPCLI和RESTAPI资源
您的第二代文件系统具有带FileServer
或Aggregate
维度的 Amazon CloudWatch 指标。为了进一步诊断不平衡的情况,您需要将这些维度值映射到特定的文件服务器(或节点),并在ONTAPCLI或RESTAPI中进行聚合。
对于文件服务器,每个文件服务器名称都映射到(例如)中的文件服务器ONTAP(或节点
FsxId01234567890abcdef-01
)名称。奇数文件服务器为首选文件服务器(也就是说,除非文件系统已失效转移至辅助文件服务器,否则将由这些服务器提供流量),而偶数文件服务器为辅助文件服务器(也就是说,它们仅在伙伴服务器不可用时提供流量)。因此,辅助文件服务器的利用率通常低于首选文件服务器。对于聚合,每个聚合名称都映射到中的聚合ONTAP(例如,
aggr1
)。每个 HA 对都有一个聚合,这意味着聚合aggr1
由 HA 对中的文件服务器FsxId01234567890abcdef-01
(活动文件服务器)和FsxId01234567890abcdef-02
(辅助文件服务器)共享,聚合aggr2
由文件服务器FsxId01234567890abcdef-03
和FsxId01234567890abcdef-04
共享,依此类推。
您可以使用查看所有聚合和文件服务器之间的映射。ONTAP CLI
-
要SSH进入您的文件系统,请按照《Amazon for NetApp ONTAP 用户指南》一使用 NetApp ONTAP CLI节中记录的步骤FSx进行操作。 NetApp ONTAP CLI
ssh fsxadmin@
file-system-management-endpoint-ip-address
-
使用 storage aggregate show
命令,并指定 -fields node
参数。::>
storage aggregate show -fields nodeaggregate node ------------------------------- ------------------------- aggr1 FsxId01234567890abcdef-01 aggr2 FsxId01234567890abcdef-03 aggr3 FsxId01234567890abcdef-05 aggr4 FsxId01234567890abcdef-07 aggr5 FsxId01234567890abcdef-09 aggr6 FsxId01234567890abcdef-11 6 entries were displayed.
重新平衡客户端
添加 HA 对后,或者如果文件服务器之间出现 I/O 不平衡(特别是网络吞吐量利用率不平衡),可以重新平衡客户端。如果在添加 HA 对后要重新平衡客户端,可以跳至 重新挂载客户端。否则,应先确定要移动的高流量客户端,以便重新平衡工作负载 I/O。
如果文件服务器之间出现 I/O 不平衡(特别是网络吞吐量利用率不平衡),原因可能出在高 I/O 客户端上。要识别高流量客户端,请使用。ONTAP CLI
识别高流量客户端
-
要SSH进入您的文件系统,请按照《Amazon for NetApp ONTAP 用户指南》一使用 NetApp ONTAP CLI节中记录的步骤FSx进行操作。 NetApp ONTAP CLI
ssh fsxadmin@
file-system-management-endpoint-ip-address
-
要查看流量最高的客户端,请使用 statistics t op client show 命令
ONTAPCLI。您可以选择指定 -node
参数,从而仅查看特定文件服务器的主要客户端。如果要诊断特定文件服务器的不平衡问题,应使用-node
参数,并将node_name
替换为文件服务器的名称(例如,FsxId01234567890abcdef-01
)。您可以选择添加
-interval
参数,提供输出各报告之前的测量间隔(单位为秒)。延长间隔(例如,延长至最长 300 秒)可以为每个卷的流量提供时间更长的样本。默认值为5
(秒)。::>
statistics top client show -nodeFsxId01234567890abcdef-01
[-interval [5,300]]在输出中,主要客户端按其 IP 地址和端口显示。
*Total Total Client Vserver Node Ops (Bps) ------------------ --------- ------------------------- ------ --------- 172.17.236.53:938 svm01 FsxId01234567890abcdef-01 2143 140443648 172.17.236.160:898 svm02 FsxId01234567890abcdef-01 812 53215232
重新挂载客户端
-
可以将客户端重新平衡到其他 HA 对。为此,请从客户端卸载该卷,然后使用 SVM's NFS /端SMB点的DNS名称重新挂载该卷,这将返回一个与随机 HA 对相对应的随机端点。
我们建议您重复使用该DNS名称,但您可以选择明确选择给定客户端挂载的 HA 对。为确保将客户端挂载到不同的端点,您可以改为指定一个与大流量文件服务器的对应端点 IP 地址不同的 IP 地址。您可以使用以下命令进行这项操作:
::>
network interface show -vserversvm_name
-lif nfs_smb_management* -fields address,curr-nodevserver lif address curr-node --------- -------------------- ------------ ------------------------- svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 2 entries were displayed.
根据
statistics top client show
命令的示例输出可知,客户端172.17.236.53
正在向FsxId01234567890abcdef-01
发送大量流量。network interface show
命令的输出表明这是地址172.31.15.89
。要挂载到不同的端点,请选择其他任何地址(在本例中,其他唯一地址为172.31.8.112
,对应于FsxId01234567890abcdef-03
)。
重新平衡卷
如果各卷或聚合之间的 I/O 不平衡,可以重新平衡卷,以便在各卷之间重新分配 I/O 流量。
注意
如果各聚合之间出现存储利用率不平衡,则通常不会对性能产生任何影响,除非高利用率与 I/O 不平衡同时出现。虽然您可以在聚合之间移动卷以平衡存储利用率,但我们建议只有在性能受到影响时才移动卷,因为如果未同时考虑到当前考虑移动的各个卷的 I/O,移动卷可能会对性能产生不利影响。
-
要SSH进入您的文件系统,请按照《Amazon for NetApp ONTAP 用户指南》一使用 NetApp ONTAP CLI节中记录的步骤FSx进行操作。 NetApp ONTAP CLI
ssh fsxadmin@
file-system-management-endpoint-ip-address
-
使用 stati stics volume show
ONTAP CLI 命令查看给定聚合的最高流量,但有以下更改: aggregate_name
替换为聚合的名称(例如,aggr1
)。您可以选择添加
-interval
参数,提供输出各报告之前的测量间隔(单位为秒)。延长间隔(例如,延长至最长 300 秒)可以为每个卷的流量提供时间更长的样本。默认值为5
(秒)。
::>
statistics volume show -aggregate
aggregate_name
-sort-key total_ops [-interval [5,300]]根据所选择的时间间隔,显示数据最多可能需要 5 分钟。该命令显示聚合中的所有卷,以及当前流向各个聚合的流量。
*Total Read Write Other Read Write Latency Volume Vserver Aggregate Ops Ops Ops Ops (Bps) (Bps) (us) ---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- vol1__0007 svm1 aggr1 4078 4078 0 0 267255808 0 1092 vol1__0005 svm1 aggr1 4078 4078 0 0 267255808 0 1086 vol1__0003 svm1 aggr1 4077 4077 0 0 267223040 0 1086 vol1__0001 svm1 aggr1 4077 4077 0 0 267239424 0 1087 vol1__0008 svm1 aggr2 2314 2314 0 0 151650304 0 1112 vol1__0006 svm1 aggr2 2144 2144 0 0 140509184 0 1104 vol1__0002 svm1 aggr2 2183 2183 0 0 143065088 0 1106 vol1__0004 svm1 aggr2 2183 2183 0 0 143065088 0 1103
成交量统计数据按成分股显示(例如,
vol1__0015
是成分股的第15个成分股) FlexGroupvol1
)。 从示例输出中可以看出,的成分比成aggr1
分的利用率更高。aggr2
要平衡聚合之间的流量,可以在聚合之间移动组成卷,以使流量分布更为均匀。 -
如果添加了新的 HA 对,应将现有卷移至新的聚合。有关更多信息,请参阅 在聚合之间移动卷。