应监控哪些指标?
通过以下 CloudWatch 指标可深入了解 ElastiCache 性能。在许多情况下,我们建议对这些指标设置 CloudWatch 告警,以便您可以在性能问题出现之前采取纠正措施。
CPU 利用率
这是以百分比形式报告的主机级指标。有关更多信息,请参阅主机级指标。
对于有 2 个或更少 vCPU 的较小节点类型,可使用 CPUUtilization
指标来监控工作负载。
一般来说,我们建议您将阈值设置为可用 CPU 的 90%。因为 Redis 是单线程的,实际阈值应计算为节点总容量的一小部分。例如,假设您使用具有两个核心的节点类型。在这种情况下,CPU 使用率的阈值为 90/2,或 45%。
您需要根据所使用的缓存节点中的核心数,来确定自己的阈值。如果超过此阈值,并且主要工作负载来自读取请求,则请通过添加只读副本来扩展缓存集群。如果主要工作负载来自写入请求,我们的建议取决于您的集群配置:
-
Redis(已禁用集群模式)集群:使用更大的缓存实例类型进行纵向扩展。
-
Redis(已启用集群模式)集群:添加更多分区,在更多主节点中分配写入工作负载。
提示
Redis 用户可能能够使用向您报告有关 Redis 引擎核心的使用率百分比的 Redis 指标 EngineCPUUtilization
,而不是使用主机级指标 CPUUtilization
。要了解此指标在您的节点上是否可用并了解更多信息,请参阅 Redis 的指标。
对于有 4 个或更多 vCPU 的较大节点类型,您可能希望使用 EngineCPUUtilization
指标,该指标可以向您报告 Redis 引擎核心的使用率百分比。要了解此指标在您的节点上是否可用并了解更多信息,请参阅 Redis 的指标。
EngineCPUUtilization
对于有 4 个或更多 vCPU 的较大节点类型,您可能希望使用 EngineCPUUtilization
指标,该指标可以向您报告 Redis 引擎核心的使用率百分比。要了解此指标在您的节点上是否可用并了解更多信息,请参阅 Redis 的指标。
有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon ElastiCache for Redis 的最佳实践
SwapUsage
这是以字节为单位报告的主机级指标。有关更多信息,请参阅主机级指标。
如果 FreeableMemory
CloudWatch 指标接近 0(即低于100MB)或 SwapUsage
指标大于 FreeableMemory
指标,则表示节点处于内存压力下。如果发生这种情况,请参阅以下主题:
移出
这是缓存引擎指标。我们建议您根据应用程序需求,为此指标确定自己的警报阈值。
当前连接
这是缓存引擎指标。我们建议您根据应用程序需求,为此指标确定自己的警报阈值。
当前连接的数量不断增加,可能表示应用程序出现问题;您需要调查应用程序行为以解决此问题。
有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon ElastiCache for Redis 的最佳实践
内存
内存是 Redis 的核心。了解集群的内存利用率对于避免数据丢失和适应数据集的未来增长是必要的。有关节点内存利用率的统计信息可在 Redis INFO
有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon ElastiCache for Redis 的最佳实践
Network
集群网络带宽容量的决定因素之一是您选择的节点类型。有关节点的网络容量的更多信息,请参阅 Amazon ElastiCache 定价
有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon ElastiCache for Redis 的最佳实践
延迟
您可以使用一组 CloudWatch 指标来衡量命令的延迟,这些指标提供了每个数据结构的聚合延迟。这些延迟指标是使用来自 Redis INFOcommandstats
统计数据计算的。
有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon ElastiCache for Redis 的最佳实践
复制
可通过 ReplicationBytes
指标了解被复制的数据量。尽管此指标表示复制组上的写入负载,但它不提供有关复制运行状况的信息。要了解此信息,您可以使用 ReplicationLag
指标。
有关更多信息,请参阅使用 Amazon CloudWatch 监控 Amazon ElastiCache for Redis 的最佳实践