生产监控 - Amazon DynamoDB
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

生产监控

应该通过在不同时间和不同负载条件下测量性能,在您的环境中建立正常 DAX 性能的基准。监控 DAX 时,您应考虑存储历史监控数据。此存储数据将为您提供与当前性能数据进行比较的基准,确定正常性能模式和性能异常,以及设计解决问题的方法。

要建立基准,您应至少在负载测试期间和生产中监控以下各项。

  • CPU 使用率和限制的请求数,以便您可以确定是否可能需要在集群中使用较大的节点类型。可通过 CPUUtilization CloudWatch 指标获得集群的 CPU 使用率。

  • 操作延迟(在客户端测量)应始终与应用程序的延迟要求保持一致。

  • 错误率应保持较低水平,如 ErrorRequestCountFaultRequestCountFailedRequestCount CloudWatch 指标中所示。

  • 网络字节消耗,以便您可以确定集群中是需要使用更多节点,还是需要使用更大的节点类型。CloudWatch 中提供了 NetworkBytesInNetworkBytesOut 指标,您应将它们与您的实例可用基准带宽进行比较,如此处所述。

    注意

    Amazon EC2 记录的可用基准带宽以每秒千兆位(Gbps)为单位,而 NetworkBytesInNetworkBytesOut 指标以每分钟千兆字节(GBpm)为单位。要将 Gbps 转换为 GBpm 并测量利用率,请将基准带宽乘以 7.5。

  • 缓存内存利用率和驱逐的大小,以便您可以确定集群的节点类型是否有足够的内存来容纳工作集,如果没有,则切换到更大的节点类型。

    注意

    如果出现大量缓存未命中和写入,缓存内存利用率可能会增加到高达 100%,并可能导致可用性停机。

  • 客户端连接,以便您可以监控集群连接中任何无法解释的峰值。