应用程序问题排查 - Amazon CloudWatch
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

应用程序问题排查

借助 Application Signals,您可以对应用程序中很少出现的延迟峰值错误进行问题排查。启用 Transaction Search 并配置捕获 100% 跨度的头部采样率后,您可以完全了解任何应用程序问题。以下场景描述了如何将 Application Signals 与交易跨度搭配使用来监控服务和识别服务质量问题。

示例问题排查场景

此场景重点围绕宠物诊所应用程序展开,该应用程序由多个调用第三方支付 API 的微服务组成。这些调用会间歇性地变慢,从而影响了收入。

Jane 打开 CloudWatch Application Signals 控制台,注意到负责注册客户的客户服务应用程序运行状况良好,未违反任何 SLO。

CloudWatch Application Signals 控制台

她打开服务,调查任何很少发生的故障模式,并注意到注册 API 经历了间歇性的 p99 延迟峰值。

间歇性延迟峰值

Jane 选择了延迟图表中的一个数据点来查看相关的跨度。她按客户 ID 对跨度进行分组,以查看所有受延迟峰值影响的客户。

受延迟峰值影响的客户

Jane 选择了其中一个具有故障状态的关联跨度,随即打开所选跟踪的跟踪详细信息页面。她滚动到分段时间线部分以跟踪调用路径,并在其中注意到对支付网关的调用失败,导致客户无法注册。

调用支付失败