本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
平衡工作负载
如果您的文件系统具有多个高可用性 (HA) 对,则其吞吐量和存储将分布在每个 HA 对中。FSx for ONTAP 会在文件写入文件系统时自动平衡这些文件,但是添加高可用性对后,您的工作负载数据和 I/O 将不再保持平衡。此外,在极少数情况下,您的工作负载数据或 I/O 可能会在文件系统的现有 HA 对之间变得不平衡,从而影响工作负载的整体性能。如果您的工作负载不平衡,则可以在文件系统的每个 HA 对(以及它们相应的文件服务器和聚合,即构成主存储层的存储池)之间对其进行重新平衡。
主存储利用率平衡
文件系统的主存储容量在称为聚合的存储池中的每个 HA 对之间平均分配。每个 HA 对都有一个聚合。我们建议您将主存储层的平均利用率持续保持在不高于 80% 的水平。对于具有多个 HA 对的文件系统,我们建议您将每个聚合的平均利用率保持在 80%。
保持 80% 的利用率可确保有可用空间容纳新的传入数据,并保持可观的维护操作开销,这可能会暂时占用聚合上的可用空间。
如果您发现聚合不平衡,则可以增加文件系统的主存储容量(相应地增加每个聚合的存储容量),也可以在聚合之间移动卷。有关更多信息,请参阅 在聚合之间移动卷。
文件服务器和磁盘性能利用率不平衡
文件系统的总性能能力(例如网络吞吐量、文件服务器到磁盘的吞吐量和 IOPS 以及磁盘 IOPS)在文件系统的 HA 对之间平均分配。对于所有性能限制,我们建议您将平均利用率保持在 50% 以下(最大峰值利用率保持在 80% 以下),这既适用于所有 HA 对中的文件系统文件服务器资源的总体利用率,也适用于每个文件服务器。
如果您注意到您的文件服务器性能利用率不平衡,并且工作负载不平衡的文件服务器的持续利用率超过 80%,则可以使用 ONTAP CLI 和 REST API 进一步诊断性能失衡的原因并进行修复。下表列出了可能的不平衡指标以及进一步诊断的后续步骤。
如果你的文件系统是... | 则... |
---|---|
文件服务器磁盘吞吐量或文件服务器磁盘 IOPS 不平衡 |
您可能遇到 HA 对子集(包含正在访问的大量数据的卷子集)上的 I/O 热点,这可能会限制工作负载的整体性能,因为它在高可用性对子集上存在瓶颈。对于每台利用率高的文件服务器,请检查利用率最高的卷,以查看聚合中哪些卷的活动最多。有关此过程的更多信息,请参阅重新平衡交易量。 |
网络吞吐量不平衡,但您的文件服务器磁盘吞吐量、文件服务器磁盘 IOPS 或磁盘 IOPS 并非不平衡 |
您的数据在 HA 对之间均匀分布,但您的客户端却不是。对于网络吞吐量利用率高于其他文件服务器的文件服务器,请检查每台文件服务器的顶级客户端,然后通过从这些客户端上卸载任何卷,然后在不同 HA 对上使用不同的端点重新装载这些客户端,从而重新平衡这些客户端。有关此过程的更多信息,请参阅重新平衡客户端。 |
将 CloudWatch 维度映射到 ONTAP CLI 和 REST API 资源
您的第二代文件系统具有带FileServer
或Aggregate
维度的 Amazon CloudWatch 指标。为了进一步诊断不平衡的情况,您需要在 ONTAP CLI 或 REST API 中将这些维度值映射到特定的文件服务器(或节点)和聚合。
对于文件服务器,每个文件服务器名称都映射到 ONTAP 中的一个文件服务器(或节点)名称(例如
FsxId01234567890abcdef-01
)。奇数文件服务器是首选的文件服务器(也就是说,除非文件系统已故障转移到辅助文件服务器,否则它们会为流量提供服务),而偶数文件服务器是辅助文件服务器(也就是说,它们仅在伙伴服务器不可用时提供流量)。因此,辅助文件服务器的利用率通常低于首选文件服务器。对于聚合,每个聚合名称都映射到 ONTAP 中的聚合(例如,
aggr1
)。每个 HA 对都有一个聚合,这意味着聚合aggr1
由 HA 对中的文件服务器FsxId01234567890abcdef-01
FsxId01234567890abcdef-02
(活动文件服务器)和(辅助文件服务器)共享,聚合aggr2
由文件服务器FsxId01234567890abcdef-03
共享FsxId01234567890abcdef-04
,依此类推。
您可以使用 ONTAP CLI 查看所有聚合和文件服务器之间的映射。
-
要通过 SSH 登录文件系统的 NetApp ONTAP CLI,请按照《适用于 ONTAP 的 Amazon FSx 用户指南》一使用 NetApp ONTAP CLI节中记录的步骤 NetApp 进行操作。
ssh fsxadmin@
file-system-management-endpoint-ip-address
-
使用存储聚合 show
命令指定 -fields node
参数。::>
storage aggregate show -fields nodeaggregate node ------------------------------- ------------------------- aggr1 FsxId01234567890abcdef-01 aggr2 FsxId01234567890abcdef-03 aggr3 FsxId01234567890abcdef-05 aggr4 FsxId01234567890abcdef-07 aggr5 FsxId01234567890abcdef-09 aggr6 FsxId01234567890abcdef-11 6 entries were displayed.
重新平衡客户端
添加 HA 对后,或者如果文件服务器之间的 I/O 不平衡(特别是网络吞吐量利用率),则可以重新平衡客户端。如果您在添加 HA 对后要重新平衡客户端,则可以跳至。重新装载客户端否则,应首先确定要移动的高流量客户端,以重新平衡工作负载 I/O。
如果您遇到文件服务器之间的 I/O 不平衡问题(特别是在网络吞吐量利用率方面),那么高的 I/O 客户机可能是原因。要识别高流量客户端,请使用 ONTAP CLI。
识别高流量客户
-
要通过 SSH 登录文件系统的 NetApp ONTAP CLI,请按照《适用于 ONTAP 的 Amazon FSx 用户指南》一使用 NetApp ONTAP CLI节中记录的步骤 NetApp 进行操作。
ssh fsxadmin@
file-system-management-endpoint-ip-address
-
要查看流量最高的客户端,请使用统计顶级客户端 show
ONTAP CLI 命令。您可以选择将 -node
参数指定为仅查看特定文件服务器的顶级客户端。如果您要诊断特定文件服务器的不平衡,请使用-node
参数,node_name
替换为文件服务器的名称(例如,FsxId01234567890abcdef-01
)。您可以选择添加
-interval
参数,提供输出每个报告之前的测量间隔(以秒为单位)。增加间隔(例如,最大为 300 秒)可以为每个卷的流量提供较长期的样本。默认值为5
(秒)。::>
statistics top client show -nodeFsxId01234567890abcdef-01
[-interval [5,300]]在输出中,排名靠前的客户端按其 IP 地址和端口显示。
*Total Total Client Vserver Node Ops (Bps) ------------------ --------- ------------------------- ------ --------- 172.17.236.53:938 svm01 FsxId01234567890abcdef-01 2143 140443648 172.17.236.160:898 svm02 FsxId01234567890abcdef-01 812 53215232
重新装载客户端
-
您可以将客户端重新平衡到其他 HA 对。为此,请从客户端卸载该卷,然后使用 SVM 的 NFS/SMB 端点的 DNS 名称将其重新挂载——这将返回一个与随机 HA 对相对应的随机端点。
我们建议您重复使用 DNS 名称,但您可以选择明确选择给定客户端挂载哪个 HA 对。为确保将客户端挂载到不同的端点,您可以改为指定与流量大的文件服务器对应的端点 IP 地址不同的端点 IP 地址。你可以通过运行以下命令来做到这一点:
::>
network interface show -vserversvm_name
-lif nfs_smb_management* -fields address,curr-nodevserver lif address curr-node --------- -------------------- ------------ ------------------------- svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 2 entries were displayed.
根据该
statistics top client show
命令的示例输出,客户端172.17.236.53
正在将大量流量带到FsxId01234567890abcdef-01
。network interface show
命令的输出表明这是地址172.31.15.89
。要挂载到其他端点,请选择任何其他地址(在本例中,唯一的其他地址是172.31.8.112
,对应于FsxId01234567890abcdef-03
)。
重新平衡交易量
如果您的卷或聚合之间的 I/O 不平衡,则可以重新平衡卷,以便在各卷之间重新分配 I/O 流量。
注意
如果您的聚合之间出现存储利用率不平衡的情况,则通常不会对性能产生任何影响,除非高利用率与 I/O 不平衡相结合。虽然您可以在聚合之间移动卷以平衡存储利用率,但我们建议您仅在看到性能影响时才移动卷,因为如果您不考虑正在考虑移动的每个卷的 I/O,则移动卷可能会对性能产生不利影响。
-
要通过 SSH 登录文件系统的 NetApp ONTAP CLI,请按照《适用于 ONTAP 的 Amazon FSx 用户指南》一使用 NetApp ONTAP CLI节中记录的步骤 NetApp 进行操作。
ssh fsxadmin@
file-system-management-endpoint-ip-address
-
使用 stati stics volume show
ONTAP CLI 命令查看给定聚合的最高流量,但有以下更改: 将
聚合名称
替换为聚合的名称(例如,)。aggr1
您可以选择添加
-interval
参数,提供输出每个报告之前的测量间隔(以秒为单位)。增加间隔(例如,最大为 300 秒)可以为每个卷的流量提供较长期的样本。默认值为5
(秒)。
::>
statistics volume show -aggregate
aggregate_name
-sort-key total_ops [-interval [5,300]]根据您选择的时间间隔,显示数据最多可能需要 5 分钟。该命令显示聚合中的所有卷,以及流向每个聚合的流量。
*Total Read Write Other Read Write Latency Volume Vserver Aggregate Ops Ops Ops Ops (Bps) (Bps) (us) ---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- vol1__0007 svm1 aggr1 4078 4078 0 0 267255808 0 1092 vol1__0005 svm1 aggr1 4078 4078 0 0 267255808 0 1086 vol1__0003 svm1 aggr1 4077 4077 0 0 267223040 0 1086 vol1__0001 svm1 aggr1 4077 4077 0 0 267239424 0 1087 vol1__0008 svm1 aggr2 2314 2314 0 0 151650304 0 1112 vol1__0006 svm1 aggr2 2144 2144 0 0 140509184 0 1104 vol1__0002 svm1 aggr2 2183 2183 0 0 143065088 0 1106 vol1__0004 svm1 aggr2 2183 2183 0 0 143065088 0 1103
成交量统计数据按成分股显示(例如,
vol1__0015
是成分股的第15个成分股 FlexGroupvol1
)。从示例输出中可以看出,的成分比成aggr1
分的利用率更高。aggr2
要平衡聚合之间的流量,可以在聚合之间移动组成卷,以便更均匀地分配流量。 -
如果您添加了新的 HA 对,则应将现有卷移至新的聚合。有关更多信息,请参阅 在聚合之间移动卷。