容错能力 - Amazon Web Services Support
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

容错能力

您可以使用以下容错类别检查。

亚马逊 DocumentDB 单可用区集群

描述

检查是否有配置为单可用区的 Amazon DocumentDB 集群。

在单可用区架构中运行 Amazon DocumentDB 工作负载不足以处理高度关键的工作负载,从组件故障中恢复最多可能需要 10 分钟。客户应在其他可用区部署副本实例,以确保在维护、实例故障、组件故障或可用区故障期间的可用性。

注意

该检查的结果每天会自动刷新一次或多次,并且不允许刷新请求。更改可能需要几个小时才能显示。当前,您无法从此检查中排除资源。

检查 ID

c15vnddn2x

提醒条件

黄色:Amazon DocumentDB 集群的实例位于不到三个可用区域中。

绿色:Amazon DocumentDB 集群在三个可用区中有实例。

Recommended Action(建议的操作)

如果您的应用程序需要高可用性,请修改您的数据库实例以使用副本实例启用多可用区。参见 Amazon DocumentDB 高可用性和复制

其他资源

了解亚马逊 DocumentDB 集群容错能力

区域和可用区

报告列
  • Status

  • 区域

  • 可用区

  • 数据库集群标识符

  • 数据库集群 ARN

  • 上次更新时间

Amazon EBS 快照

描述

检查 Amazon Elastic Block Store (Amazon EBS) 卷(可用或正在使用)的快照的使用期限。

即使复制了 Amazon EBS 卷,也可能会发生故障。快照会保存到亚马逊简单存储服务 (Amazon S3) Simple Service 中,以实现持久存储和恢复。 point-in-time

检查 ID

H7IgTzjTYb

提醒条件
  • 黄色:最新的卷快照在 7 到 30 天之间。

  • 红色:最新的卷快照超过 30 天。

  • 红色:卷没有快照。

Recommended Action(建议的操作)

每周或每月为卷创建一次快照。有关更多信息,请参阅创建 Amazon EBS 快照

其他资源

Amazon Elastic Block Store (Amazon EBS)

报告列
  • Status

  • 区域

  • 卷 ID

  • 卷名

  • 快照 ID

  • 快照名称

  • 快照期限

  • 卷附件

  • Reason

Amazon ECS Amazon日志驱动程序处于屏蔽模式

描述

检查是否在阻塞模式下使用 Amazon日志记录驱动程序配置的 Amazon ECS 任务定义。在阻塞模式下配置的驱动程序会危及系统的可用性。

注意

该检查的结果每天会自动刷新一次或多次,并且不允许刷新请求。更改可能需要几个小时才能显示。当前,您无法从此检查中排除资源。

检查 ID

c1dvkm4z6b

提醒条件

黄色:awslogs 驱动程序日志记录配置参数模式设置为阻塞或缺失。缺少模式参数表示默认屏蔽配置。

绿色:Amazon ECS 任务定义未使用 awslogs 驱动程序或 awslogs 驱动程序配置为非阻塞模式。

Recommended Action(建议的操作)

要降低可用性风险,请考虑将任务定义 Amazon日志驱动程序配置从阻塞更改为非阻塞。在非阻塞模式下,你必须为 max-buffer-size 参数设置一个值。有关配置参数的更多信息和指导,请参阅。请参阅 Log Amazon s 容器日志驱动程序中的使用非阻塞模式防止日志丢失

其他资源

使用日志 Amazon 日志驱动程序

选择容器日志记录选项以避免背压

在 Log Amazon s 容器日志驱动程序中使用非阻塞模式防止日志丢失

报告列
  • Status

  • 区域

  • 任务定义 ARN

  • 容器定义名称

  • 上次更新时间

Amazon ElastiCache 多可用区集群

描述

检查在单个可用区 (AZ) 中部署的 ElastiCache 集群。如果集群中的多可用区处于非活动状态,则此检查会提示您。

在多个可用区中部署通过异步复制到不同可用区中的只读副本来增强 ElastiCache 集群可用性。当发生计划内集群维护或主节点不可用时, ElastiCache 会自动将副本提升为主节点。这种失效转移允许恢复集群写入操作,并且不需要管理员干预。

注意

此检查的结果将每天自动刷新多次,并且不允许刷新请求。更改可能需要几个小时才能显示。当前,您无法从此检查中排除资源。

检查 ID

ECHdfsQ402

提醒条件
  • 绿色:集群中的多可用区处于活动状态。

  • 黄色:集群中的多可用区处于非活动状态。

Recommended Action(建议的操作)

在与主分片不同的可用区中,每个分片至少创建一个副本。

其他资源

有关更多信息,请参阅使用多可用区最大限度地缩短 Redis ElastiCache 的停机时间

报告列
  • Status

  • 区域

  • 集群名称

  • 上次更新时间

Amazon MemoryDB 多可用区集群

描述

检查部署在单个可用区(AZ)中的 MemoryDB 集群。如果集群中的多可用区处于非活动状态,则此检查会提示您。

在多个可用区中部署可异步复制到不同可用区中的只读副本,从而增强 MemoryDB 集群可用性。当发生计划内集群维护或主节点不可用时,MemoryDB 会自动将副本提升为主节点。这种失效转移允许恢复集群写入操作,并且不需要管理员干预。

注意

此检查的结果将每天自动刷新多次,并且不允许刷新请求。更改可能需要几个小时才能显示。当前,您无法从此检查中排除资源。

检查 ID

MDBdfsQ401

提醒条件
  • 绿色:集群中的多可用区处于活动状态。

  • 黄色:集群中的多可用区处于非活动状态。

Recommended Action(建议的操作)

在与主分片不同的可用区中,每个分片至少创建一个副本。

其他资源

有关更多信息,请参阅 Minimizing downtime in MemoryDB with Multi-AZ(通过多可用区最大程度地减少 MemoryDB 停机时间)。

报告列
  • Status

  • 区域

  • 集群名称

  • 上次更新时间

Amazon RDS 备份

描述

检查 Amazon RDS 数据库实例的自动备份。

默认情况下,启用备份,保留期为一天。备份可降低数据意外丢失的风险并允许 point-in-time恢复。

检查 ID

opQPADkZvH

提醒条件

红色:数据库实例将备份保留期设置为 0 天。

Recommended Action(建议的操作)

根据您的应用程序的要求,将数据库实例的自动备份的保留期设置为 1 到 35 天。请参阅使用自动备份

其他资源

Amazon RDS 入门

报告列
  • Status

  • 区域/可用区

  • 数据库实例

  • VPC ID

  • 备份保留期

Amazon S3 存储桶日志记录

描述

检查 Amazon Simple Storage Service (Amazon S3) 存储桶的日志记录配置。

启用服务器访问日志记录后,每小时将详细的访问日志传送到您选择的存储桶。访问日志记录包含与每个请求有关的详细信息,如请求类型、请求中指定的资源和请求的处理时间和日期。默认情况下,存储桶日志记录未启用。如果要执行安全审核或了解有关用户和使用模式的详细信息,则应启用日志记录。

初次启用日志记录时,系统会自动验证配置。但是,将来的修改可能会导致日志记录失败。此检查将检查显式 Amazon S3 存储桶权限,但不会检查可能覆盖存储桶权限的关联存储桶策略。

检查 ID

BueAdJ7NrP

提醒条件
  • 黄色:存储桶没有启用服务器访问日志记录。

  • 黄色:目标存储桶权限不包括根账户,因此 Trusted Advisor 无法对其进行检查。

  • 红色:目标存储桶不存在。

  • 红色:目标存储桶和源存储桶的拥有者不同。

  • 红色:日志提交者没有目标存储桶的写入权限。

Recommended Action(建议的操作)

为大多数存储桶启用存储桶日志记录。请参阅使用控制台启用日志记录以编程方式启用日志记录

如果目标存储桶权限不包括根账户,并且您 Trusted Advisor 想检查日志记录状态,请将该根账户添加为被授权者。请参阅编辑存储桶权限

如果目标存储桶不存在,请选择现有存储桶作为目标,或创建一个新存储桶,然后选择它。请参阅管理存储桶日志记录

如果目标存储桶和源存储桶的拥有者不同,请将目标存储桶更改为拥有者与源存储桶相同的存储桶。请参阅管理存储桶日志记录

如果日志提交者没有目标存储桶的写入权限(写入权限未启用),请向日志提交组授予上传/删除权限。请参阅编辑存储桶权限

其他资源
报告列
  • Status

  • 区域

  • 存储桶名称

  • 目标名称

  • 目标存在

  • 拥有者相同

  • 写权限已启用

  • Reason

Auto Scaling 组运行状况检查

描述

检查 Auto Scaling 组的运行状况检查配置。

如果 Auto Scaling 组使用的是 Elastic Load Balancing,则建议的配置是启用 Elastic Load Balancing 运行状况检查。如果未使用 Elastic Load Balancing 运行状况检查,则 Auto Scaling 只能针对 Amazon Elastic Compute Cloud (Amazon EC2) 实例的运行状况进行检查。Auto Scaling 不会对实例上运行的应用程序执行操作。

检查 ID

CLOG40CDO8

提醒条件
  • 黄色:自动扩缩组有关联的负载均衡器,但 Elastic Load Balancing 运行状况检查未启用。

  • 黄色:自动扩缩组没有关联的负载均衡器,但 Elastic Load Balancing 运行状况检查已启用。

Recommended Action(建议的操作)

如果自动扩缩组有关联的负载均衡器,但 Elastic Load Balancing 运行状况检查未启用,请参阅向自动扩缩组添加 Elastic Load Balancing 运行状况检查

如果 Elastic Load Balancing 运行状况检查已启用,但没有负载均衡器与自动扩缩组关联,请参阅设置自动扩展且负载均衡的应用程序

其他资源

Amazon EC2 Auto Scaling 用户指南

报告列
  • Status

  • 区域

  • 自动扩缩组名

  • 关联的负载均衡器

  • 运行状况检查

Auto Scaling 组资源

描述

检查与启动配置和 Auto Scaling 组关联的资源的可用性。

指向不可用资源的 Auto Scaling 组无法启动新的 Amazon Elastic Compute Cloud (Amazon EC2) 实例。如果配置正确,Auto Scaling 会在需求高峰期间无缝增加 Amazon EC2 实例的数量,并在需求平缓期间自动减少该数量。指向不可用资源的 Auto Scaling 组和启动配置不能按预期运行。

检查 ID

8CNsSllI5v

提醒条件
  • 红色:自动扩缩组与删除的负载均衡器关联。

  • 红色:启动配置与删除的 Amazon 机器映像(AMI)关联。

Recommended Action(建议的操作)

如果负载均衡器已删除,可以先创建一个新的负载均衡器或目标组,然后将其关联到自动扩缩组;也可以创建一个不包含负载均衡器的新自动扩缩组。有关创建包含新负载均衡器的新自动扩缩组的信息,请参阅设置自动扩展且负载均衡的应用程序。有关创建不包含负载均衡器的新自动扩缩组的信息,请参阅通过控制台开始使用 Auto Scaling 中的“创建自动扩缩组”。

如果 AMI 已删除,则使用有效的 AMI 创建新的启动模板或启动模板版本,然后将其与自动扩缩组关联。请参阅通过控制台开始使用 Auto Scaling 中的“创建启动配置”。

其他资源
报告列
  • Status

  • 区域

  • 自动扩缩组名

  • 启动类型

  • 资源类型

  • 资源名称

Amazon Direct Connect 位置弹性

描述

检查与每个虚拟专用网关或中转网关相关的 Amazon Direct Connect 位置弹性。

如果您的任何虚拟专用网关或 Direct Connect 网关未配置为使用至少两个 Direct Connect 位置,则此检查会提醒您。缺乏位置弹性可能会导致意外停机和糟糕的连接体验。

注意

此检查的结果将每天自动刷新多次,并且不允许刷新请求。更改可能需要几个小时才能显示。

检查 ID

c1dfpnchv2

提醒条件

红色:虚拟专用网关或 Direct Connect 网关没有将虚拟接口配置为跨多个 Direct Connect 位置连接到设备。

黄色:虚拟专用网关或 Direct Connect 网关设置有多个虚拟接口,用于连接到同一 Direct Connect 位置内的不同设备。但是它没有配置为跨多个 Direct Connect 位置连接到设备。

绿色:虚拟专用网关或 Direct Connect 网关配置为使用至少两个 Direct Connect 位置。

Recommended Action(建议的操作)

要构建 Direct Connect 位置弹性,您可以将虚拟专用网关或 Direct Connect 网关配置为连接到至少两个不同的 Direct Connect 位置。有关更多信息,请参阅Amazon Direct Connect 弹性建议

其他资源

Amazon Direct Connect 弹性建议

Amazon Direct Connect 故障转移测试

报告列
  • Status

  • 区域

  • 上次更新时间

  • 弹性状态

  • 位置

  • 连接 ID

  • 网关 ID

ELB Connection Draining

描述

检查没有启用连接耗尽的负载均衡器

当未启用连接耗尽并且您从负载均衡器取消注册 Amazon EC2 实例时,负载均衡器将停止将流量路由到该实例并关闭连接。启用连接耗尽后,负载均衡器将停止向已取消注册的实例发送新请求,但会保持连接打开以提供活动请求。

检查 ID

7qGXsKIUw

提醒条件

黄色:负载均衡器未启用连接耗尽。

Recommended Action(建议的操作)

为负载均衡器启用连接耗尽。有关更多信息,请参阅连接耗尽为负载均衡器启用或禁用连接耗尽

其他资源

Elastic Load Balancing 概念

报告列
  • Status

  • 区域

  • 负载均衡器名称

  • Reason

负载均衡器优化

描述

检查您的负载均衡器配置。

为了帮助在使用 Elastic Load Balancing 时提高 Amazon Elastic Compute Cloud (Amazon EC2) 的容错能力级别,我们建议在一个区域的多个可用区中运行相同数量的实例。配置的负载均衡器会产生费用,因此这也是成本优化检查。

检查 ID

iqdCTZKCUp

提醒条件
  • 黄色:已为单个可用区启用负载均衡器。

  • 黄色:已为没有活跃实例的可用区启用负载均衡器。

  • 黄色:在负载均衡器注册的 Amazon EC2 实例未在可用区之间平均分配。(使用的可用区中的最高实例数与最低实例数之差大于 1,且差值大于最高数量的 20%。)

Recommended Action(建议的操作)

确保负载均衡器指向至少两个可用区内活跃并运行正常的实例。有关更多信息,请参见添加可用区

如果负载均衡器配置的对象是没有正常运行实例的可用区,或者可用区之间的实例分配不均衡,请确定所有可用区是否都是必要的。删除所有不必要的可用区,并确保实例在其余可用区之间均衡分配。有关更多信息,请参阅删除可用区

其他资源
报告列
  • Status

  • 区域

  • 负载均衡器名称

  • 区域数量

  • a 区实例

  • b 区实例

  • c 区实例

  • d 区实例

  • e 区实例

  • f 区实例

  • Reason