使用 Amazon CloudWatch 监控 - Amazon FSx for Windows File Server
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

使用 Amazon CloudWatch 监控

Amazon CloudWatch 监控 FSx for Windows File Server 文件系统的原始数据,并将数据处理为可读且近乎实时的指标。这些统计数据会保存 15 个月,从而使您能够访问历史信息,以帮助您了解工作流程或文件系统的执行情况。

FSx for Windows File Server 发布以下领域的 CloudWatch 指标:

  • 网络 I/O 指标衡量访问文件系统的客户端和文件服务器之间的活动。

  • 文件服务器指标衡量网络吞吐量利用率、文件服务器 CPU 和内存,以及文件服务器磁盘吞吐量和 IOPS 利用率。

  • 磁盘 I/O 指标衡量文件服务器和存储卷之间的活动。

  • 存储卷指标衡量 HDD 存储卷的磁盘吞吐量利用率和 SSD 存储卷的 IOPS 利用率。

  • 存储容量指标衡量存储使用量,包括重复数据删除带来的存储节省。

下图说明了 FSx for Windows File Server 文件系统、其组件和指标领域。

FSx for Windows File Server 在 CloudWatch 中报告监控网络 I/O、文件服务器性能和存储卷性能的指标。

默认情况下,Amazon FSx for Windows File Server 会以 1 分钟为间隔将指标数据发送到 CloudWatch,但以下项以 5 分钟为间隔发出:

  • FileServerDiskThroughputBalance

  • FileServerDiskIopsBalance

有关 CloudWatch 的更多信息,请参阅 Amazon CloudWatch 用户指南中的什么是 Amazon CloudWatch?

对于单可用区文件系统,在文件系统维护或基础设施组件更换期间,可能不会发布指标;对于多可用区文件系统,在主文件服务器和辅助文件服务器之间进行失效转移和失效自动恢复期间,可能不会发布指标。

一些 Amazon FSx CloudWatch 指标以原始字节的形式进行报告。字节数不会舍入到十进制或二进制单位倍数。

CloudWatch 指标和维度

FSx for Windows File Server 将所有文件系统的以下指标发布到 Amazon CloudWatch 的 AWS/FSx 命名空间中:

  • DataReadBytes

  • DataWriteBytes

  • DataReadOperations

  • DataWriteOperations

  • MetadataOperations

  • FreeStorageCapacity

FSx for Windows File Server 将吞吐能力至少配置为 32 MBps 的文件系统的以下部分所述指标发布到 Amazon CloudWatch 的 AWS/FSx 命名空间中。

网络 I/O 指标

AWS/FSx 命名空间包括以下 网络 I/O 指标。

指标 描述
DataReadBytes

访问文件系统的客户端的读取操作字节数。

单位:字节

有效统计数据:Sum

DataWriteBytes

访问文件系统的客户端的写入操作字节数。

单位:字节

有效统计数据:Sum

DataReadOperations

访问文件系统的客户端的读取操作数。

单位:计数

有效统计数据:Sum

DataWriteOperations

访问文件系统的客户端的写入操作数。

单位:计数

有效统计数据:Sum

MetadataOperations

访问文件系统的客户端的元数据操作数。

单位:计数

有效统计数据:Sum

ClientConnections

客户端与文件服务器之间的活动连接数。

单位:计数

文件服务器指标

AWS/FSx 命名空间包括以下文件服务器指标。

指标 描述
NetworkThroughputUtilization

访问文件系统的客户端的网络吞吐量,表示为预调配限制的百分比。

单位:百分比

CPUUtilization

文件服务器 CPU 资源的利用率百分比。

单位:百分比

MemoryUtilization

文件服务器内存资源的利用率百分比。

单位:百分比

FileServerDiskThroughputUtilization

文件服务器与其存储卷之间的磁盘吞吐量,表示为由吞吐能力决定的预调配限制的百分比。

单位:百分比

FileServerDiskThroughputBalance

文件服务器与其存储卷之间磁盘吞吐量的可用突增点数百分比。适用于预调配的吞吐能力不高于 256Mbps 的文件系统。

单位:百分比

FileServerDiskIopsUtilization

文件服务器与存储卷之间的磁盘 IOPS,表示为由吞吐能力决定的预调配限制的百分比。

单位:百分比

FileServerDiskIopsBalance

文件服务器与其存储卷之间磁盘 IOPS 的可用突增点数百分比。适用于预调配的吞吐能力不高于 256Mbps 的文件系统。

单位:百分比

磁盘 I/O 指标

AWS/FSx 命名空间包括以下磁盘 I/O 指标。

指标 描述
DiskReadBytes

访问存储卷的读取操作字节数。

单位:字节

有效统计数据:Sum

DiskWriteBytes

访问存储卷的写入操作字节数。

单位:字节

有效统计数据:Sum

DiskReadOperations

访问存储卷的文件服务器的读取操作数。

单位:计数

有效统计数据:Sum

DiskWriteOperations

访问存储卷的文件服务器的写入操作数。

单位:计数

有效统计数据:Sum

FSx for Windows 存储卷指标

AWS/FSx 命名空间包括以下存储卷指标。

指标 描述
DiskThroughputUtilization

(仅限 HDD)文件服务器与其存储卷之间的磁盘吞吐量,表示为由存储卷决定的预调配限制的百分比。

单位:百分比

DiskThroughputBalance

(仅限 HDD)存储卷磁盘吞吐量和磁盘 IOPS 的可用突增点数百分比。

单位:百分比

DiskIopsUtilization

(仅限 SSD)文件服务器与存储卷之间的磁盘 IOPS,表示为由存储卷决定的预调配 IOPS 的百分比。

单位:百分比

存储容量指标

AWS/FSx 命名空间包括以下存储容量指标。

指标 描述
FreeStorageCapacity

可用存储容量的大小。

单位:字节

有效统计数据:AverageMinimum

StorageCapacityUtilization

已用物理存储容量,表示为总存储容量的百分比。

单位:百分比

DeduplicationSavedStorage

启用了重复数据删除时节省的存储空间量。

单位:字节

FSx for Windows File Server 指标的命名空间和维度

FSx for Windows File Server 指标使用 FSx 命名空间,并且为单个维度 FileSystemId 提供指标。可以使用 describe-file-systems Amazon CLI 命令或 DescribeFileSystems API 命令查找文件系统的 ID。文件系统 ID 采用 fs-0123456789abcdef0 形式。

使用文件系统指标

每个 Amazon FSx 文件系统都有两个主要的架构组件:

  • 文件服务器,用于为访问文件系统的客户端提供数据。

  • 存储卷,用于托管文件系统中的数据。

FSx for Windows File Server 在 CloudWatch 中报告指标,这些指标可跟踪文件系统的文件服务器和存储卷的性能和资源利用率。下图说明了 Amazon FSx 文件系统及其架构组件,以及可用于监控的性能和资源 CloudWatch 指标。针对一组指标显示的关键属性是文件系统属性,用于确定这些指标的容量。调整该属性会修改该组指标的文件系统性能。

FSx for Windows File Server 在 CloudWatch 中报告监控网络 I/O、文件服务器性能和存储卷性能的指标。

可以使用 Amazon FSx 控制台中的监控和性能面板查看下表中所述的 FSx for Windows File Server CloudWatch 指标。

“监控和性能”面板 如何… 图表 相关指标
Summary

…确定文件系统的总 IOPS?

总 IOPS

总和(DataReadOperations + DataWriteOperations + MetadataOperations)/周期(以秒为单位)

…确定文件系统的总吞吐量?

总吞吐量

总和(DataReadBytes + DataWriteBytes)/周期(以秒为单位)

…确定文件系统上的可用存储容量大小? 可用存储容量 FreeStorageCapacity
…客户端与文件服务器之间建立的连接数? 客户端连接 ClientConnections
存储 …确定已用物理磁盘空间量(表示为文件系统总存储容量的百分比)? 存储容量利用率 StorageCapacityUtilization
…确定通过重复数据删除节省的物理磁盘空间量? 通过重复数据删除节省的存储容量 DeduplicationSavedStorage
性能 – 文件服务器 …确定访问文件系统的客户端的网络吞吐量(表示为文件系统预调配吞吐量的百分比)? 网络吞吐量利用率 NetworkThroughputUtilization1
…确定文件服务器与其存储卷之间的磁盘吞吐量(表示为由吞吐能力决定的预调配限制的百分比)? 磁盘吞吐量利用率 FileServerDiskThroughputUtilization1
…确定文件服务器与其存储卷之间磁盘吞吐量的可用突增点数百分比? 磁盘吞吐量突增平衡 FileServerDiskThroughputBalance
…确定文件服务器与存储卷之间的磁盘 IOPS(表示为由吞吐能力决定的预调配限制的百分比)? 磁盘 IOPS 利用率 FileServerDiskIopsUtilization
…确定文件服务器与存储卷之间磁盘 IOPS 的可用突增点数百分比? 磁盘 IOPS 突增平衡 FileServerDiskIopsBalance
…确定文件服务器的 CPU 利用率百分比? CPU 使用率 CPUUtilization
…确定文件服务器的内存利用率百分比? 内存利用率 MemoryUtilization
性能 – 存储卷 …确定访问存储卷的操作吞吐量(表示为由 HDD 存储容量决定的预调配限制的百分比)? 磁盘吞吐量利用率(HDD) DiskThroughputUtilization
…确定访问 HDD 存储卷的操作可用吞吐量和 IOPS 突增点数百分比? 磁盘吞吐量突增平衡(HDD) DiskThroughputBalance2
…确定访问存储卷的操作 IOPS(表示为由 HDD 存储容量决定的预调配限制的百分比)? 磁盘 IOPS 利用率 (HDD) SUM(DiskReadOperations + DiskWriteOperations) / Period(秒)/ (12 * 预置 HDD 存储容量 (TiB))
…确定访问存储卷的操作 IOPS(表示为由 SSD 存储容量决定的预调配限制的百分比)? 磁盘 IOPS 利用率(SSD) DiskIopsUtilization
注意

1我们建议您将平均吞吐能力利用率保持在 50% 以下,以确保有足够的备用吞吐能力来应对工作负载的意外峰值以及任何后台 Windows 存储操作(例如存储同步、重复数据删除或影子复制)。

2根据工作负载,HDD 存储卷可能会出现显著的性能差异。IOPS 或吞吐量突然激增可能导致磁盘性能下降。有关更多信息,请参阅 HDD 突增性能

性能警告和建议

FSx for Windows 针对吞吐能力至少配置为 32Mbps 的文件系统提供了性能警告。每当 CloudWatch 指标中的某一个指标接近或超过多个连续数据点的预定阈值时,Amazon FSx 就会显示警告。这些警告会为您提供切实可行的建议,您可以使用这些建议来优化文件系统的性能。

可以在监控和性能控制面板的多个区域内访问警告。监控和性能面板的摘要部分中会显示所有活动或近期的 Amazon FSx 性能警告,以及为处于“警报”状态的文件系统配置的所有 CloudWatch 警报。仪表板中显示指标图表的部分也会显示警告。

您可以为任意 Amazon FSx 指标创建 CloudWatch 警报。有关更多信息,请参阅 创建 CloudWatch 告警

使用性能警告提高文件系统的性能

Amazon FSx 会为您提供切实可行的建议,您可以使用这些建议来优化文件系统的性能。这些建议介绍了如何解决潜在的性能瓶颈。如果您希望继续进行活动,或者该活动对文件系统的性能造成了影响,您可以采取建议的操作。根据触发警告的指标,您可以通过增加文件系统的吞吐能力或存储容量来解决警告,如下表所述。

如果有针对此指标的警告 请执行该操作
网络吞吐量 – 利用率 增加吞吐能力
文件服务器 > 磁盘 IOPS – 利用率
文件服务器 > 磁盘吞吐量 – 利用率
文件服务器 > 磁盘 IOPS – 突增余额
文件服务器 > 磁盘吞吐量 – 突增余额
存储容量利用率 增加存储容量
存储卷 > 磁盘吞吐量 – 利用率(HDD) 增加存储容量切换到 SDD 存储类型
存储卷 > 磁盘吞吐量 – 突增余额(HDD)
存储卷 > 磁盘 IOPS – 利用率(SSD) 提高 SSD IOPS
注意

某些文件系统事件可能会消耗磁盘 I/O 性能资源,并可能触发性能警告。例如:

  • 存储容量扩展的优化阶段会增加磁盘吞吐量,如 增加存储容量并提升文件系统性能 中所述

  • 对于多可用区文件系统,吞吐能力扩展、硬件更换或可用区中断等事件会导致自动失效转移和失效自动恢复事件。在此期间发生的任何数据更改都需要在主文件服务器和辅助文件服务器之间进行同步,Windows Server 运行的数据同步作业可能会消耗磁盘 I/O 资源。有关更多信息,请参阅 在 FSx for Windows File Server 文件系统上管理吞吐能力

有关文件系统性能的更多信息,请参阅 FSx for Windows File Server 性能