容错能力 - Amazon Web Services 支持
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

容错能力

您可以使用以下容错类别检查。

亚马逊 DocumentDB 单可用区集群

描述

检查是否有配置为单可用区的 Amazon DocumentDB 集群。

在单可用区架构中运行 Amazon DocumentDB 工作负载不足以处理高度关键的工作负载,从组件故障中恢复最多可能需要 10 分钟。客户应在其他可用区部署副本实例,以确保在维护、实例故障、组件故障或可用区故障期间的可用性。

注意
注意

此检查的结果将每天自动刷新多次,并且不允许刷新请求。更改可能需要几个小时才能显示。

对于企业、Enterprise On-Ramp 或 Enterprise Support 客户,您可以使用 BatchUpdateRecommendationResourceExclusionAPI 在 Trusted Advisor 结果中包含或排除一项或多项资源。

检查 ID

c15vnddn2x

提醒条件

黄色:Amazon DocumentDB 集群的实例位于不到三个可用区域中。

绿色:Amazon DocumentDB 集群在三个可用区中有实例。

Recommended Action(建议的操作)

如果您的应用程序需要高可用性,请修改您的数据库实例以使用副本实例启用多可用区。参见 Amazon DocumentDB 高可用性和复制

其他资源

了解亚马逊 DocumentDB 集群容错能力

区域和可用区

报告列
  • 状态

  • 区域

  • 可用区

  • 数据库集群标识符

  • 数据库集群 ARN

  • 上次更新时间

Amazon EBS 快照

描述

检查您的 Amazon EBS 卷(可用或使用中)的快照的期限。即使复制了 Amazon EBS 卷,也可能发生故障。快照会保存到 Amazon S3 中,以实现持久存储和恢复。 point-in-time

检查 ID

H7IgTzjTYb

提醒条件
  • 黄色:最新的卷快照在 7 到 30 天之间。

  • 红色:最新的卷快照超过 30 天。

  • 红色:卷没有快照。

Recommended Action(建议的操作)

每周或每月为卷创建一次快照。有关更多信息,请参阅创建 Amazon EBS 快照

要自动创建 EBS 快照,您可以考虑使用Amazon BackupAmazon Data Lifecycle Manager

其他资源

Amazon Elastic Block Store(Amazon EBS)

Amazon EBS Snapshots

Amazon Backup

Amazon Data Lifecycle Manager

报告列
  • 状态

  • 区域

  • 卷 ID

  • 卷名

  • 快照 ID

  • 快照名称

  • 快照期限

  • 卷附件

  • Reason

Amazon ECS Amazon日志驱动程序处于屏蔽模式

描述

检查是否在阻塞模式下使用 Amazon日志记录驱动程序配置的 Amazon ECS 任务定义。在阻塞模式下配置的驱动程序会危及系统的可用性。

注意
注意

此检查的结果将每天自动刷新多次,并且不允许刷新请求。更改可能需要几个小时才能显示。

对于企业、Enterprise On-Ramp 或 Enterprise Support 客户,您可以使用 BatchUpdateRecommendationResourceExclusionAPI 在 Trusted Advisor 结果中包含或排除一项或多项资源。

检查 ID

c1dvkm4z6b

提醒条件

黄色:awslogs 驱动程序日志记录配置参数模式设置为阻塞或缺失。缺少模式参数表示默认屏蔽配置。

绿色:Amazon ECS 任务定义未使用 awslogs 驱动程序或 awslogs 驱动程序配置为非阻塞模式。

Recommended Action(建议的操作)

要降低可用性风险,请考虑将任务定义 Amazon日志驱动程序配置从阻塞更改为非阻塞。在非阻塞模式下,你必须为 max-buffer-size参数设置一个值。有关配置参数的更多信息和指导,请参阅。请参阅 Log Amazon s 容器日志驱动程序中的使用非阻塞模式防止日志丢失

其他资源

使用日志 Amazon 日志驱动程序

选择容器日志记录选项以避免背压

在 Log Amazon s 容器日志驱动程序中使用非阻塞模式防止日志丢失

报告列
  • 状态

  • 区域

  • 任务定义 ARN

  • 容器定义名称

  • 上次更新时间

Amazon ElastiCache 多可用区集群

描述

检查在单个可用区 (AZ) 中部署的 ElastiCache 集群。如果集群中的多可用区处于非活动状态,则此检查会提示您。

在多个区域部署通过异步复制到不同可用区的只读副本来 AZs 增强 ElastiCache 集群的可用性。当发生计划内集群维护或主节点不可用时, ElastiCache 会自动将副本提升为主节点。这种失效转移允许恢复集群写入操作,并且不需要管理员干预。

注意

此检查的结果将每天自动刷新多次,并且不允许刷新请求。更改可能需要几个小时才能显示。

对于企业、Enterprise On-Ramp 或 Enterprise Support 客户,您可以使用 BatchUpdateRecommendationResourceExclusionAPI 在 Trusted Advisor 结果中包含或排除一项或多项资源。

检查 ID

ECHdfsQ402

提醒条件
  • 绿色:集群中的多可用区处于活动状态。

  • 黄色:集群中的多可用区处于非活动状态。

Recommended Action(建议的操作)

在与主分片不同的可用区中,每个分片至少创建一个副本。

其他资源

有关更多信息,请参阅使用多可用区最大限度地缩短 ElastiCache (Redis OSS) 中的停机时间

报告列
  • 状态

  • 区域

  • 集群名称

  • 上次更新时间

Amazon MemoryDB 多可用区集群

描述

检查部署在单个可用区(AZ)中的 MemoryDB 集群。如果集群中的多可用区处于非活动状态,则此检查会提示您。

在多个区域部署通过异步复制到不同可用区中的只读副本来 AZs 增强 MemoryDB 集群的可用性。当发生计划内集群维护或主节点不可用时,MemoryDB 会自动将副本提升为主节点。这种失效转移允许恢复集群写入操作,并且不需要管理员干预。

注意

此检查的结果将每天自动刷新多次,并且不允许刷新请求。更改可能需要几个小时才能显示。

对于企业、Enterprise On-Ramp 或 Enterprise Support 客户,您可以使用 BatchUpdateRecommendationResourceExclusionAPI 在 Trusted Advisor 结果中包含或排除一项或多项资源。

检查 ID

MDBdfsQ401

提醒条件
  • 绿色:集群中的多可用区处于活动状态。

  • 黄色:集群中的多可用区处于非活动状态。

Recommended Action(建议的操作)

在与主分片不同的可用区中,每个分片至少创建一个副本。

其他资源

有关更多信息,请参阅 Minimizing downtime in MemoryDB with Multi-AZ(通过多可用区最大程度地减少 MemoryDB 停机时间)。

报告列
  • 状态

  • 区域

  • 集群名称

  • 上次更新时间

亚马逊 MSK 集群多可用区

描述

检查您的 Amazon MSK 预配置集群的可用区域数量 (AZs)。Amazon MSK 集群由多个代理组成,这些代理协同工作并分配数据和负载。在 2-AZ 集群中,在维护期间或代理问题期间,生产可能会中断。

检查 ID

90046ff5b5

提醒条件
  • 黄色:Amazon MSK 集群仅在两个中配置了代理 AZs

  • 绿色:Amazon MSK 集群配置了跨三个或更多代理的代理 AZs

Recommended Action(建议的操作)

要提高集群的可用性,您可以在 3 AZs 设置中创建另一个集群。然后将现有集群迁移到您创建的新集群。您可以使用 Amazon MSK 复制进行此迁移。

其他资源

亚马逊 MSK 高可用性

亚马逊 MSK 迁移

报告列
  • 状态

  • 区域

  • MSK 集群 ARN

  • 的数量 AZs

  • 上次更新时间

Amazon RDS 备份

描述

检查 Amazon RDS 数据库实例的自动备份。

默认情况下,启用备份,保留期为一天。备份可降低数据意外丢失的风险并允许 point-in-time恢复。

检查 ID

opQPADkZvH

提醒条件

红色:数据库实例将备份保留期设置为 0 天。

Recommended Action(建议的操作)

根据您的应用程序的要求,将数据库实例的自动备份的保留期设置为 1 到 35 天。请参阅使用自动备份

其他资源

Amazon RDS 入门

报告列
  • 状态

  • 区域/可用区

  • 数据库实例

  • VPC ID

  • 备份保留期

Amazon S3 存储桶日志记录

描述

检查 Amazon Simple Storage Service (Amazon S3) 存储桶的日志记录配置。

启用服务器访问日志记录后,每小时将详细的访问日志传送到您选择的存储桶。访问日志记录包含与每个请求有关的详细信息,如请求类型、请求中指定的资源和请求的处理时间和日期。默认情况下,存储桶日志记录未启用。如果要执行安全审核或了解有关用户和使用模式的详细信息,则应启用日志记录。

初次启用日志记录时,系统会自动验证配置。但是,将来的修改可能会导致日志记录失败。此检查将检查显式 Amazon S3 存储桶权限,但不会检查可能覆盖存储桶权限的关联存储桶策略。

检查 ID

BueAdJ7NrP

提醒条件
  • 黄色:存储桶没有启用服务器访问日志记录。

  • 黄色:目标存储桶权限不包括根账户,因此 Trusted Advisor 无法对其进行检查。

  • 红色:目标存储桶不存在。

  • 红色:目标存储桶和源存储桶的拥有者不同。

  • 红色:日志提交者没有目标存储桶的写入权限。

Recommended Action(建议的操作)

为大多数存储桶启用存储桶日志记录。请参阅使用控制台启用日志记录以编程方式启用日志记录

如果目标存储桶权限不包括根账户,并且您 Trusted Advisor 想检查日志记录状态,请将该根账户添加为被授权者。请参阅编辑存储桶权限

如果目标存储桶不存在,请选择现有存储桶作为目标,或创建一个新存储桶,然后选择它。请参阅管理存储桶日志记录

如果目标存储桶和源存储桶的拥有者不同,请将目标存储桶更改为拥有者与源存储桶相同的存储桶。请参阅管理存储桶日志记录

如果日志提交者没有目标存储桶的写入权限(写入权限未启用),请向日志提交组授予上传/删除权限。请参阅编辑存储桶权限

其他资源
报告列
  • 状态

  • 区域

  • 存储桶名称

  • 目标名称

  • 目标存在

  • 拥有者相同

  • 写权限已启用

  • Reason

Auto Scaling 组运行状况检查

描述

检查 Auto Scaling 组的运行状况检查配置。

如果 Auto Scaling 组使用的是 Elastic Load Balancing,则建议的配置是启用 Elastic Load Balancing 运行状况检查。如果不使用 Elastic Load Balancing 运行状况检查,Auto Scaling 只能对亚马逊弹性计算云 (Amazon EC2) 实例的运行状况采取行动。Auto Scaling 不会对实例上运行的应用程序执行操作。

检查 ID

CLOG40CDO8

提醒条件
  • 黄色:自动扩缩组有关联的负载均衡器,但 Elastic Load Balancing 运行状况检查未启用。

  • 黄色:自动扩缩组没有关联的负载均衡器,但 Elastic Load Balancing 运行状况检查已启用。

Recommended Action(建议的操作)

如果自动扩缩组有关联的负载均衡器,但 Elastic Load Balancing 运行状况检查未启用,请参阅向自动扩缩组添加 Elastic Load Balancing 运行状况检查

如果 Elastic Load Balancing 运行状况检查已启用,但没有负载均衡器与自动扩缩组关联,请参阅设置自动扩展且负载均衡的应用程序

其他资源

Amazon A EC2 uto Scaling 用户指南

报告列
  • 状态

  • 区域

  • 自动扩缩组名

  • 关联的负载均衡器

  • 运行状况检查

Auto Scaling 组资源

描述

检查与您的启动配置、启动模板和 Auto Scaling 组相关的资源的可用性。

指向不可用资源的 Auto Scaling 组无法启动新的亚马逊弹性计算云 (Amazon EC2) 实例。正确配置后,Auto Scaling 会使亚马逊 EC2 实例的数量在需求高峰期间无缝增加,并在需求平静期间自动减少。指向不可用资源的 Auto Scaling 组和启动配置/启动模板无法按预期运行。

检查 ID

8CNsSllI5v

提醒条件
  • 红色:自动扩缩组与删除的负载均衡器关联。

  • 红色:启动配置与删除的 Amazon 机器映像(AMI)关联。

  • 红色:启动模板与已删除的亚马逊系统映像 (AMI) 相关联。

Recommended Action(建议的操作)

如果负载均衡器已被删除,请创建一个新的负载均衡器或目标组,然后将其关联到 Auto Scaling 组。或者创建一个没有负载均衡器的新 Auto Scaling 组。有关创建包含新负载均衡器的新自动扩缩组的信息,请参阅设置自动扩展且负载均衡的应用程序。有关创建不包含负载均衡器的新自动扩缩组的信息,请参阅通过控制台开始使用 Auto Scaling 中的“创建自动扩缩组”。

如果 AMI 已被删除,则使用有效的 AMI 创建新的启动配置或启动模板版本,并将其与 Auto Scaling 组关联。有关如何创建新的启动配置的信息,请参阅 Amazon A EC2 uto Scaling 用户指南中的创建启动配置。有关如何创建启动模板的信息,请参阅 Amazon A EC2 uto Scaling 用户指南中的为 Auto Sc aling 组创建启动模板

注意

出于安全考虑,检查结果不包括使用启动模板中的 Amazon Systems Manager 参数引用的任何资源。

如果您的启动模板包含包含亚马逊系统映像 (AMI) ID 的 Amazon Systems Manager 参数,请查看启动模板以确保参数引用有效的 AMI ID,或者在 Amazon Systems Manager 参数存储中进行适当的更改。有关更多信息,请参阅 Amazon A EC2 uto Scaling 用户指南 IDs中的使用 Amazon Systems Manager 参数代替 AMI

其他资源
报告列
  • 状态

  • 区域

  • 自动扩缩组名

  • 启动类型

  • 资源类型

  • 资源名称

Amazon Direct Connect 位置弹性

描述

检查 Amazon Direct Connect 用于将您的本地连接到每个 Direct Connect 网关或虚拟专用网关的的弹性。

如果任何 Direct Connect 网关或虚拟专用网关未在至少两个不同的 Direct Connect 位置配置虚拟接口,则此检查会提醒您。缺乏定位弹性可能会导致维护期间的意外停机、光纤中断、设备故障或完全定位故障。

注意

此检查的结果将每天自动刷新多次,并且不允许刷新请求。更改可能需要几个小时才能显示。

注意

直接连接是使用 Direct Connect 网关在 Transit Gateway 上实现的。

检查 ID

c1dfpnchv2

提醒条件

红色:Direct Connect 网关或虚拟专用网关在单个 Direct Connect 设备上配置了一个或多个虚拟接口。

黄色:Direct Connect 网关或虚拟专用网关在单个 Direct Connect 位置配置了跨多个 Direct Connect 设备的虚拟接口。

绿色:Direct Connect 网关或虚拟专用网关配置有跨两个或更多不同的 Direct Connect 位置的虚拟接口。

Recommended Action(建议的操作)

要构建 Direct Connect 位置弹性,您可以将 Direct Connect 网关或虚拟专用网关配置为连接到至少两个不同的 Direct Connect 位置。有关更多信息,请参阅Amazon Direct Connect 弹性建议

其他资源

Amazon Direct Connect 弹性建议

Amazon Direct Connect 故障转移测试

报告列
  • 状态

  • 区域

  • 上次更新时间

  • 弹性状态

  • 位置

  • 连接 ID

  • 网关 ID

Amazon Outposts 单机架部署

描述

检查 Outposts Racks 的余额。这将评估客户的 Outposts 实例是部署在多个 Outposts 机架上还是部署到单个 Outpost 机架上。对于涉及单个机架的问题(例如环境故障),单个 Outposts 机架会造成单点故障。可以通过在多个机架上部署前哨基地来缓解这些情况。

检查 ID

c243hjzrhn

提醒条件
  • 黄色:你的前哨基地部署在单个机架上

  • 绿色:你的前哨基地部署在多个机架上。

Recommended Action(建议的操作)

如果您在上运行生产工作负载 Amazon Outposts,则最佳做法是使用以下弹性架构。单个 Amazon Outposts 机架会造成单点故障。考虑在该位置添加第二个 Amazon Outposts 机架,使其有足够的容量用于故障转移事件,然后在机架之间分配工作负载。

其他资源

故障模式 4:机架或数据中心

报告列
  • 状态

  • 资源 ARN

  • AZ

  • 机架数量

  • 上次更新时间

CLB Connection Draining

描述

检查是否有未启用连接耗尽功能的 Classic 负载均衡器。

如果未启用连接耗尽功能,并且您从经典负载均衡器注销 Amazon EC2 实例,则经典负载均衡器会停止将流量路由到该实例并关闭连接。启用连接耗尽后,Classic 负载均衡器会停止向注销的实例发送新请求,但会保持连接打开状态以处理活动请求。

检查 ID

7qGXsKIUw

提醒条件
  • 黄色:Classic 负载均衡器未启用连接耗尽功能。

  • 绿色:经典负载均衡器已启用连接耗尽功能。

Recommended Action(建议的操作)

为 Classic 负载均衡器启用连接耗尽功能。有关更多信息,请参阅连接耗尽为负载均衡器启用或禁用连接耗尽

其他资源

Elastic Load Balancing 概念

报告列
  • 状态

  • 区域

  • 负载均衡器名称

  • Reason

ELB 目标不平衡

描述

检查目标组在可用区 (AZs) 中的目标分布,以了解应用程序负载均衡器 (ALB)、网络负载均衡器 (NLB) 和网关负载均衡器 (GWLB)。

此支票不包括以下内容:

  • 配置了单个可用区 (AZ) 的负载均衡器。

  • 负载均衡器,其中人口 AZs 最多和最少的目标数量之差等于或小于 1。

  • 具有基于 IP 的目标的目标组,其中 AvailabilityZone 属性设置为 “全部”。

检查 ID

b92b83d667

提醒条件
  • 红色:单个可用区占负载均衡器容量的 66% 以上。

  • 黄色:单个可用区代表负载均衡器容量的 50% 以上。

  • 绿色:否 AZs 代表负载均衡器容量的 50% 以上。

Recommended Action(建议的操作)

为了提高弹性,请确保目标组的目标数量相同 AZs。

其他资源

应用程序负载均衡器的目标组

向 Application Load Balancer 目标组注册目标

报告列
  • 状态

  • 区域

  • 负载均衡器名称

  • Load Balancer 类型

  • 目标群体 ARN (arn)

  • 各注册目标的差异 AZs

  • 上次更新时间

负载均衡器优化

描述

检查您的负载均衡器配置。

为了帮助提高使用 Elastic Load Balancing 时亚马逊弹性计算云 (Amazon EC2) 的容错级别,我们建议在一个地区的多个可用区中运行相同数量的实例。配置的负载均衡器会产生费用,因此这也是成本优化检查。

检查 ID

iqdCTZKCUp

提醒条件
  • 黄色:已为单个可用区启用负载均衡器。

  • 黄色:已为没有活跃实例的可用区启用负载均衡器。

  • 黄色:向负载均衡器注册的 Amazon EC2 实例在可用区之间的分布不均匀。(使用的可用区中的最高实例数与最低实例数之差大于 1,且差值大于最高数量的 20%。)

Recommended Action(建议的操作)

确保负载均衡器指向至少两个可用区内活跃并运行正常的实例。有关更多信息,请参见添加可用区

如果负载均衡器配置的对象是没有正常运行实例的可用区,或者可用区之间的实例分配不均衡,请确定所有可用区是否都是必要的。删除所有不必要的可用区,并确保实例在其余可用区之间均衡分配。有关更多信息,请参阅删除可用区

其他资源
报告列
  • 状态

  • 区域

  • 负载均衡器名称

  • 区域数量

  • a 区实例

  • b 区实例

  • c 区实例

  • d 区实例

  • e 区实例

  • f 区实例

  • Reason

Network Fireall 多可用区

描述

检查您的网络防火墙是否配置为使用多个可用区 (AZ) 作为防火墙终端节点。

可用区是一个与众不同的位置,不受其他区域故障的影响。如果 Network Firewall 终端节点仅部署在 1 个可用区中,则它可能是单点故障,并且可能会影响 AZs使用网络防火墙进行流量检查的其他工作负载。最佳做法是在同一个区域中配置多个 AZs 网络防火墙,以提高工作负载的可用性。

检查 ID

c2vlfg0gqd

提醒条件
  • 黄色:Network Firewall 端点部署在 1 个可用区中。

  • 绿色:Network Firewall 端点至少部署在两个中 AZs。

Recommended Action(建议的操作)

确保您的 Network Firewall 配置了至少两个 AZs用于生产工作负载的防火墙。

其他资源

的 VPC 子网配置Amazon Network Firewall

创建防火墙

可用区

Amazon Well-Architected Tool -将工作负载部署到多个地点

共享服务 VPC 中的设备

报告列
  • 状态

  • 区域

  • Network Firewall

  • VPC ID

  • Network Firewall 子网

  • Network Firewall 子网 AZs

  • 上次更新时间