平衡工作负载 - 适用于 ONTAP 的 FSx
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

平衡工作负载

如果您的文件系统具有多个高可用性 (HA) 对,则其吞吐量和存储将分布在每个 HA 对中。 FSxfor 会在文件写入文件系统时ONTAP自动平衡文件,但是一旦添加 HA 对,您的工作负载数据和 I/O 将不再保持平衡。此外,在极少数情况下,工作负载数据或 I/O 可能会在文件系统的现有 HA 对之间失去平衡,从而影响工作负载的整体性能。如果工作负载不平衡,则可以在文件系统的每个 HA 对(及其相应的文件服务器和聚合,即构成主存储层的存储池)之间进行重新平衡。

主存储利用率平衡

文件系统的主存储容量在各个 HA 中之间平均分配给称为聚合的存储池中。每个 HA 对都有一个聚合。我们建议将主存储层的平均利用率持续保持在不高于 80% 的水平。对于具有多个 HA 对的文件系统,我们建议将每个聚合的平均利用率保持在 80% 以下。

保持 80% 的利用率可确保为新的传入数据预留可用空间,并为可能临时占用聚合上可用空间的维护操作保持合理的开销。

如果发现聚合不平衡,可以增加文件系统的主存储容量(相应地增加每个聚合的存储容量),或者也可以在聚合之间移动卷。有关更多信息,请参阅 在聚合之间移动卷

文件服务器和磁盘性能利用率不平衡

文件系统的总性能能力(例如网络吞吐量、文件服务器到磁盘的吞吐量以及IOPS磁盘IOPS)在文件系统的 HA 对之间平均分配。对于各种性能限制,我们建议将平均利用率持续保持在 50% 以下(最大峰值利用率低于 80%),这既适用于文件系统文件服务器资源在所有 HA 对中的总体利用率,也适用于每个文件服务器的利用率。

如果您发现您的文件服务器性能利用率不平衡,且工作负载不平衡的文件服务器的持续利用率超过 80%,则可以使用和进一步诊断性能不平衡的原因ONTAPCLI并RESTAPI进行修复。下表列出了可能的不平衡指标以及进行进一步诊断的后续步骤。

如果文件系统... 则...

文件服务器磁盘吞吐量或文件服务器磁盘IOPS不平衡

一部分 HA 对(即卷的一部分,其中含有大量正在访问的数据)上可能会出现 I/O 热点现象,这可能会限制工作负载的整体性能,因为它对部分 HA 对构成了瓶颈。对于各个高利用率文件服务器,请检查利用率最高的卷,查看聚合中哪些卷的活动最多。有关此过程的更多信息,请参阅重新平衡卷

网络吞吐量不平衡,但您的文件服务器磁盘吞吐量、文件服务器磁盘IOPS或磁盘IOPS并非不平衡

数据在 HA 对之间均匀分布,但客户端分布不均匀。对于网络吞吐量利用率较高的文件服务器,请检查各个文件服务器的主要客户端,然后通过从这些客户端上卸载任何卷,并在不同 HA 对上挂载至不同的端点来重新平衡这些客户端。有关此过程的更多信息,请参阅重新平衡客户端

将 CloudWatch 维度映射到ONTAPCLI和RESTAPI资源

您的第二代文件系统具有带FileServerAggregate维度的 Amazon CloudWatch 指标。为了进一步诊断不平衡的情况,您需要将这些维度值映射到特定的文件服务器(或节点),并在ONTAPCLI或RESTAPI中进行聚合。

  • 对于文件服务器,每个文件服务器名称都映射到(例如)中的文件服务器ONTAP(或节点FsxId01234567890abcdef-01)名称。奇数文件服务器为首选文件服务器(也就是说,除非文件系统已失效转移至辅助文件服务器,否则将由这些服务器提供流量),而偶数文件服务器为辅助文件服务器(也就是说,它们仅在伙伴服务器不可用时提供流量)。因此,辅助文件服务器的利用率通常低于首选文件服务器。

  • 对于聚合,每个聚合名称都映射到中的聚合ONTAP(例如,aggr1)。每个 HA 对都有一个聚合,这意味着聚合 aggr1 由 HA 对中的文件服务器 FsxId01234567890abcdef-01(活动文件服务器)和 FsxId01234567890abcdef-02(辅助文件服务器)共享,聚合 aggr2 由文件服务器 FsxId01234567890abcdef-03FsxId01234567890abcdef-04 共享,依此类推。

您可以使用查看所有聚合和文件服务器之间的映射。ONTAP CLI

  1. 要SSH进入您的文件系统,请按照《Amazon for NetApp ONTAP 用户指南》一使用 NetApp ONTAP CLI节中记录的步骤FSx进行操作。 NetApp ONTAP CLI

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. 使用 storage aggregate show 命令,并指定 -fields node 参数。

    ::> storage aggregate show -fields node aggregate node ------------------------------- ------------------------- aggr1 FsxId01234567890abcdef-01 aggr2 FsxId01234567890abcdef-03 aggr3 FsxId01234567890abcdef-05 aggr4 FsxId01234567890abcdef-07 aggr5 FsxId01234567890abcdef-09 aggr6 FsxId01234567890abcdef-11 6 entries were displayed.

重新平衡客户端

添加 HA 对后,或者如果文件服务器之间出现 I/O 不平衡(特别是网络吞吐量利用率不平衡),可以重新平衡客户端。如果在添加 HA 对后要重新平衡客户端,可以跳至 重新挂载客户端。否则,应先确定要移动的高流量客户端,以便重新平衡工作负载 I/O。

如果文件服务器之间出现 I/O 不平衡(特别是网络吞吐量利用率不平衡),原因可能出在高 I/O 客户端上。要识别高流量客户端,请使用。ONTAP CLI

识别高流量客户端
  1. 要SSH进入您的文件系统,请按照《Amazon for NetApp ONTAP 用户指南》一使用 NetApp ONTAP CLI节中记录的步骤FSx进行操作。 NetApp ONTAP CLI

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. 要查看流量最高的客户端,请使用 statistics t op client show 命令ONTAPCLI。您可以选择指定 -node 参数,从而仅查看特定文件服务器的主要客户端。如果要诊断特定文件服务器的不平衡问题,应使用 -node 参数,并将 node_name 替换为文件服务器的名称(例如,FsxId01234567890abcdef-01)。

    您可以选择添加 -interval 参数,提供输出各报告之前的测量间隔(单位为秒)。延长间隔(例如,延长至最长 300 秒)可以为每个卷的流量提供时间更长的样本。默认值为 5(秒)。

    ::> statistics top client show -node FsxId01234567890abcdef-01 [-interval [5,300]]

    在输出中,主要客户端按其 IP 地址和端口显示。

    *Total Total Client Vserver Node Ops (Bps) ------------------ --------- ------------------------- ------ --------- 172.17.236.53:938 svm01 FsxId01234567890abcdef-01 2143 140443648 172.17.236.160:898 svm02 FsxId01234567890abcdef-01 812 53215232
重新挂载客户端
  • 可以将客户端重新平衡到其他 HA 对。为此,请从客户端卸载该卷,然后使用 SVM's NFS /端SMB点的DNS名称重新挂载该卷,这将返回一个与随机 HA 对相对应的随机端点。

    我们建议您重复使用该DNS名称,但您可以选择明确选择给定客户端挂载的 HA 对。为确保将客户端挂载到不同的端点,您可以改为指定一个与大流量文件服务器的对应端点 IP 地址不同的 IP 地址。您可以使用以下命令进行这项操作:

    ::> network interface show -vserver svm_name -lif nfs_smb_management* -fields address,curr-node vserver lif address curr-node --------- -------------------- ------------ ------------------------- svm01 nfs_smb_management_1 172.31.15.89 FsxId01234567890abcdef-01 svm01 nfs_smb_management_3 172.31.8.112 FsxId01234567890abcdef-03 2 entries were displayed.

    根据 statistics top client show 命令的示例输出可知,客户端 172.17.236.53 正在向 FsxId01234567890abcdef-01 发送大量流量。network interface show 命令的输出表明这是地址 172.31.15.89。要挂载到不同的端点,请选择其他任何地址(在本例中,其他唯一地址为 172.31.8.112,对应于 FsxId01234567890abcdef-03)。

重新平衡卷

如果各卷或聚合之间的 I/O 不平衡,可以重新平衡卷,以便在各卷之间重新分配 I/O 流量。

注意

如果各聚合之间出现存储利用率不平衡,则通常不会对性能产生任何影响,除非高利用率与 I/O 不平衡同时出现。虽然您可以在聚合之间移动卷以平衡存储利用率,但我们建议只有在性能受到影响时才移动卷,因为如果未同时考虑到当前考虑移动的各个卷的 I/O,移动卷可能会对性能产生不利影响。

  1. 要SSH进入您的文件系统,请按照《Amazon for NetApp ONTAP 用户指南》一使用 NetApp ONTAP CLI节中记录的步骤FSx进行操作。 NetApp ONTAP CLI

    ssh fsxadmin@file-system-management-endpoint-ip-address
  2. 使用 stati stics volume show ONTAP CLI 命令查看给定聚合的最高流量,但有以下更改:

    • aggregate_name替换为聚合的名称(例如,aggr1)。

    • 您可以选择添加 -interval 参数,提供输出各报告之前的测量间隔(单位为秒)。延长间隔(例如,延长至最长 300 秒)可以为每个卷的流量提供时间更长的样本。默认值为 5(秒)。

    ::> statistics volume show -aggregate aggregate_name -sort-key total_ops [-interval [5,300]]

    根据所选择的时间间隔,显示数据最多可能需要 5 分钟。该命令显示聚合中的所有卷,以及当前流向各个聚合的流量。

    *Total Read Write Other Read Write Latency Volume Vserver Aggregate Ops Ops Ops Ops (Bps) (Bps) (us) ---------- ------- --------- ------ ---- ----- ----- --------- ----- ------- vol1__0007 svm1 aggr1 4078 4078 0 0 267255808 0 1092 vol1__0005 svm1 aggr1 4078 4078 0 0 267255808 0 1086 vol1__0003 svm1 aggr1 4077 4077 0 0 267223040 0 1086 vol1__0001 svm1 aggr1 4077 4077 0 0 267239424 0 1087 vol1__0008 svm1 aggr2 2314 2314 0 0 151650304 0 1112 vol1__0006 svm1 aggr2 2144 2144 0 0 140509184 0 1104 vol1__0002 svm1 aggr2 2183 2183 0 0 143065088 0 1106 vol1__0004 svm1 aggr2 2183 2183 0 0 143065088 0 1103

    成交量统计数据按成分股显示(例如,vol1__0015是成分股的第15个成分股) FlexGroup vol1)。 从示例输出中可以看出,的成分比成aggr1分的利用率更高。aggr2要平衡聚合之间的流量,可以在聚合之间移动组成卷,以使流量分布更为均匀。

  3. 如果添加了新的 HA 对,应将现有卷移至新的聚合。有关更多信息,请参阅 在聚合之间移动卷