监控 Amazon Aurora 集群中的指标
Amazon Aurora 使用重复的数据库服务器集群。监控 Aurora 集群通常需要检查多个数据库实例的运行状况。实例可能具有专门的作用,主要处理写入操作和/或读取操作。您还可以通过衡量复制滞后来监控集群的整体运行状况。这是指一个数据库实例所做的更改可供其他实例使用之前的时间。
主题
监控计划
在开始监控 Amazon Aurora 之前,请创建监控计划。该计划应回答以下问题:
-
您的监控目标是什么?
-
您将监控哪些资源?
-
监控这些资源的频率如何?
-
您将使用哪些监控工具?
-
谁负责执行监控任务?
-
出现问题时应通知谁?
性能基准
为了实现您的监控目标,您需要建立一个基准。为此,请在 Amazon Aurora 环境的不同时间、不同负载条件下测量性能。您可以监控如下指标:
-
网络吞吐量
-
客户端连接
-
用于读取、写入或元数据操作的 I/O
-
数据库实例的突增信用余额
我们建议您存储 Amazon Aurora 的历史性能数据。使用存储的数据,您可以将当前性能与过去的趋势进行比较。您还可以区分正常性能模式与异常情况,并设计解决问题的方法。
性能准则
通常,性能指标的可接受值取决于应用程序相对于基准正在执行的操作。应调查相对于基准性能的一致或趋势性变化。以下指标通常是性能问题的根源:
-
高 CPU 或 RAM 消耗 – CPU 或 RAM 消耗值高可能是正常情况,前提是它们符合您的应用程序目标(如吞吐量或并发度)并且符合预期。
-
磁盘空间消耗 – 如果使用的空间始终不低于总磁盘空间的 85%,则应调查磁盘空间消耗。应查看是否可以从实例中删除数据或是将数据存档到其他系统以释放空间。
-
网络流量 – 对于网络流量,应与系统管理员进行讨论,以了解域网络和 Internet 连接的预期吞吐量。如果吞吐量始终低于预期,则应调查网络流量。
-
数据库连接 – 如果发现用户连接数较高,实例性能下降且响应时间延长,请考虑约束数据库连接。数据库实例的最佳用户连接数因您的实例类所执行操作的复杂性而异。要确定数据库连接的数量,请将数据库实例与参数组关联,其中
User Connections
参数设置为 0 以外的值(无限制)。您可以使用现有参数组或新建一个。有关更多信息,请参阅“Amazon Aurora 的参数组”。 -
IOPS 指标 – IOPS 指标的预期值取决于磁盘规格和服务器配置,因此,请使用您的基准来了解典型状况。调查值是否始终与您的基准不同。为获得最佳 IOPS 性能,请确保典型工作集与内存大小相适,以最大限度地减少读取和写入操作。
当性能超出已建立的基准时,您可能需要进行更改以优化数据库可用性,进而适应工作负载。例如,您可能需要更改数据库实例的实例类。或者,您可能需要更改可供客户端使用的数据库实例和只读副本的数量。