

本文属于机器翻译版本。若本译文内容与英语原文存在差异，则一律以英文原文为准。

# 容错能力
<a name="fault-tolerance-checks"></a>

您可以使用以下容错类别检查。

**Contents**
+ [Amazon EBS 快照](#amazon-ebs-snapshots)
+ [Amazon ElastiCache 多可用区集群](#amazon-elasticache-multi-az-clusters)
+ [Amazon MemoryDB 多可用区集群](#amazon-memorydb-multi-az-clusters)
+ [Amazon RDS 备份](#amazon-rds-backups)
+ [Amazon S3 存储桶日志记录](#amazon-s3-bucket-logging)
+ [Auto Scaling 组运行状况检查](#auto-scaling-group-health-check)
+ [Auto Scaling 组资源](#auto-scaling-group-resources)
+ [ELB 连接耗尽](#elb-connection-draining)
+ [负载均衡器优化](#load-balancer-optimization)

## Amazon EBS 快照
<a name="amazon-ebs-snapshots"></a>

**说明**  
检查 Amazon EBS 卷（可用或正在使用）的快照的存在时间。即使复制了 Amazon EBS 卷，也可能会发生故障。快照会保存到 Amazon S3 中，以实现持久存储和 point-in-time恢复。

**检查 ID**  
`H7IgTzjTYb`

**提醒条件**  
+ 黄色：最新的卷快照在 7 到 30 天之间。
+ 红色：最新的卷快照超过 30 天。
+ 红色：卷没有快照。

**Recommended Action（建议的操作）**  
每周或每月为卷创建一次快照。有关更多信息，请参阅[创建 Amazon EBS 快照](https://docs.amazonaws.cn/AWSEC2/latest/UserGuide/ebs-creating-snapshot.html)。  
要自动创建 EBS 快照，您可以考虑使用 [Amazon Backup](https://docs.amazonaws.cn/prescriptive-guidance/latest/backup-recovery/new-ebs-volume-backups.html#aws-backup-volume) 或 [Amazon Data Lifecycle Manager](https://docs.amazonaws.cn/prescriptive-guidance/latest/backup-recovery/new-ebs-volume-backups.html#amazon-dlm)。

**其他资源**  
[Amazon Elastic Block Store（Amazon EBS）](https://docs.amazonaws.cn/AWSEC2/latest/UserGuide/AmazonEBS.html)  
[Amazon EBS Snapshots](https://docs.amazonaws.cn/ebs/latest/userguide/ebs-snapshots.html)  
[Amazon Backup](https://docs.amazonaws.cn/aws-backup/latest/devguide/whatisbackup.html)  
[Amazon Data Lifecycle Manager](https://docs.amazonaws.cn/ebs/latest/userguide/snapshot-lifecycle.html)

**报告列**  
+ Status
+ Region
+ 卷 ID
+ 卷名
+ 快照 ID
+ 快照名称
+ 快照期限
+ 卷附件
+ Reason

## Amazon ElastiCache 多可用区集群
<a name="amazon-elasticache-multi-az-clusters"></a>

**说明**  
检查在单个可用区 (AZ) 中部署的 ElastiCache 集群。如果集群中的多可用区处于非活动状态，则此检查会提示您。  
在多个区域部署通过异步复制到不同可用区的只读副本来 AZs 增强 ElastiCache 集群的可用性。当发生计划内集群维护或主节点不可用时， ElastiCache 会自动将副本提升为主节点。这种失效转移允许恢复集群写入操作，并且不需要管理员干预。  
此检查的结果将每天自动刷新多次，并且不允许刷新请求。更改可能需要几个小时才能显示。  
对于企业、企业入口或企业客户，您可以使用 [BatchUpdateRecommendationResourceExclusion](https://docs.amazonaws.cn/trustedadvisor/latest/APIReference/API_BatchUpdateRecommendationResourceExclusion.html)API 在 Trusted Advisor 结果中包含或排除一项或多项资源。

**检查 ID**  
`ECHdfsQ402`

**提醒条件**  
+ 绿色：集群中的多可用区处于活动状态。
+ 黄色：集群中的多可用区处于非活动状态。

**推荐操作**  
在与主分片不同的可用区中，每个分片至少创建一个副本。

**其他资源**  
有关更多信息，请参阅使用[多可用区最大限度地缩短 ElastiCache (Redis OSS) 中的停机时间](https://docs.amazonaws.cn/AmazonElastiCache/latest/red-ug/AutoFailover.html)。

**报告列**  
+ Status
+ Region
+ 集群名称
+ 上次更新时间

## Amazon MemoryDB 多可用区集群
<a name="amazon-memorydb-multi-az-clusters"></a>

**说明**  
检查部署在单个可用区（AZ）中的 MemoryDB 集群。如果集群中的多可用区处于非活动状态，则此检查会提示您。  
在多个区域部署通过异步复制到不同可用区中的只读副本来 AZs 增强 MemoryDB 集群的可用性。当发生计划内集群维护或主节点不可用时，MemoryDB 会自动将副本提升为主节点。这种失效转移允许恢复集群写入操作，并且不需要管理员干预。  
此检查的结果将每天自动刷新多次，并且不允许刷新请求。更改可能需要几个小时才能显示。  
对于企业、企业入口或企业客户，您可以使用 [BatchUpdateRecommendationResourceExclusion](https://docs.amazonaws.cn/trustedadvisor/latest/APIReference/API_BatchUpdateRecommendationResourceExclusion.html)API 在 Trusted Advisor 结果中包含或排除一项或多项资源。

**检查 ID**  
`MDBdfsQ401`

**提醒条件**  
+ 绿色：集群中的多可用区处于活动状态。
+ 黄色：集群中的多可用区处于非活动状态。

**Recommended Action（建议的操作）**  
在与主分片不同的可用区中，每个分片至少创建一个副本。

**其他资源**  
有关更多信息，请参阅 [Minimizing downtime in MemoryDB with Multi-AZ](https://docs.amazonaws.cn/memorydb/latest/devguide/autofailover.html)（通过多可用区最大程度地减少 MemoryDB 停机时间）。

**报告列**  
+ Status
+ Region
+ 集群名称
+ 上次更新时间

## Amazon RDS 备份
<a name="amazon-rds-backups"></a>

**说明**  
检查 Amazon RDS 数据库实例的自动备份。  
默认情况下，启用备份，保留期为一天。备份可降低数据意外丢失的风险并允许 point-in-time恢复。  
此检查会报告按标准标记的所有资源以及评估的资源总数，包括 `OK` 资源。资源表仅列出已标记的资源。

**检查 ID**  
`opQPADkZvH`

**提醒条件**  
红色：数据库实例将备份保留期设置为 0 天。

**Recommended Action（建议的操作）**  
根据您的应用程序的要求，将数据库实例的自动备份的保留期设置为 1 到 35 天。请参阅[使用自动备份](https://docs.amazonaws.cn/AmazonRDS/latest/UserGuide/USER_WorkingWithAutomatedBackups.html)。

**其他资源**  
[Amazon RDS 入门](https://docs.amazonaws.cn/AmazonRDS/latest/UserGuide/CHAP_GettingStarted.html)

**报告列**  
+ Status
+ 区域/可用区
+ 数据库实例
+  - VPC ID
+ 备份保留期

## Amazon S3 存储桶日志记录
<a name="amazon-s3-bucket-logging"></a>

**说明**  
检查 Amazon Simple Storage Service (Amazon S3) 存储桶的日志记录配置。  
启用服务器访问日志记录后，每小时将详细的访问日志传送到您选择的存储桶。访问日志记录包含与每个请求有关的详细信息，如请求类型、请求中指定的资源和请求的处理时间和日期。默认情况下，存储桶日志记录未启用。如果要执行安全审核或了解有关用户和使用模式的详细信息，则应启用日志记录。  
初次启用日志记录时，系统会自动验证配置。但是，将来的修改可能会导致日志记录失败。此检查将检查显式 Amazon S3 存储桶权限，但不会检查可能覆盖存储桶权限的关联存储桶策略。

**检查 ID**  
`BueAdJ7NrP`

**提醒条件**  
+ 黄色：无法访问目标存储桶。 Trusted Advisor
+ 黄色：存储桶没有启用服务器访问日志记录。
+ 黄色：目标存储桶权限不包括根账户，因此 Trusted Advisor 无法对其进行检查。
+ 红色：目标存储桶不存在。
+ 红色：目标存储桶和源存储桶的拥有者不同。
+ 红色：日志提交者没有目标存储桶的写入权限。

**Recommended Action（建议的操作）**  
为大多数存储桶启用存储桶日志记录。请参阅[使用控制台启用日志记录](https://docs.amazonaws.cn/AmazonS3/latest/dev/enable-logging-console.html)和[以编程方式启用日志记录](https://docs.amazonaws.cn/AmazonS3/latest/dev/enable-logging-programming.html)。  
如果目标存储桶权限不包括根账户，并且您 Trusted Advisor 想检查日志记录状态，请将该根账户添加为被授权者。请参阅[编辑存储桶权限](https://docs.amazonaws.cn/AmazonS3/latest/UG/EditingBucketPermissions.html)。  
如果目标存储桶不存在，请选择现有存储桶作为目标，或创建一个新存储桶，然后选择它。请参阅[管理存储桶日志记录](https://docs.amazonaws.cn/AmazonS3/latest/UG/ManagingBucketLogging.html)。  
如果目标存储桶和源存储桶的拥有者不同，请将目标存储桶更改为拥有者与源存储桶相同的存储桶。请参阅[管理存储桶日志记录](https://docs.amazonaws.cn/AmazonS3/latest/UG/ManagingBucketLogging.html)。  
如果日志传送者没有目标的写入权限（未启用写入功能），请向日志传输 Upload/Delete 组授予权限。请参阅[编辑存储桶权限](https://docs.amazonaws.cn/AmazonS3/latest/UG/EditingBucketPermissions.html)。

**其他资源**  
+ [使用存储桶](https://docs.amazonaws.cn/AmazonS3/latest/UG/BucketOperations.html)
+ [服务器访问日志记录](https://docs.amazonaws.cn/AmazonS3/latest/dev/ServerLogs.html)
+ [服务器访问日志格式](https://docs.amazonaws.cn/AmazonS3/latest/dev/LogFormat.html)
+ [删除日志文件](https://docs.amazonaws.cn/AmazonS3/latest/dev/deleting-log-files-lifecycle.html)

**报告列**  
+ Status
+ Region
+ 存储桶名称
+ 目标名称
+ 目标存在
+ 拥有者相同
+ 写权限已启用
+ Reason

## Auto Scaling 组运行状况检查
<a name="auto-scaling-group-health-check"></a>

**说明**  
检查 Auto Scaling 组的运行状况检查配置。  
如果 Auto Scaling 组使用的是 Elastic Load Balancing，则建议的配置是启用 Elastic Load Balancing 运行状况检查。如果未使用 Elastic Load Balancing 运行状况检查，则 Auto Scaling 只能针对 Amazon Elastic Compute Cloud (Amazon EC2) 实例的运行状况进行检查。Auto Scaling 不会对实例上运行的应用程序执行操作。

**检查 ID**  
`CLOG40CDO8`

**提醒条件**  
+ 黄色：自动扩缩组有关联的负载均衡器，但 Elastic Load Balancing 运行状况检查未启用。
+ 黄色：自动扩缩组没有关联的负载均衡器，但 Elastic Load Balancing 运行状况检查已启用。

**Recommended Action（建议的操作）**  
如果自动扩缩组有关联的负载均衡器，但 Elastic Load Balancing 运行状况检查未启用，请参阅[向自动扩缩组添加 Elastic Load Balancing 运行状况检查](https://docs.amazonaws.cn/AutoScaling/latest/DeveloperGuide/as-add-elb-healthcheck.html)。  
如果 Elastic Load Balancing 运行状况检查已启用，但没有负载均衡器与自动扩缩组关联，请参阅[设置自动扩展且负载均衡的应用程序](https://docs.amazonaws.cn/AutoScaling/latest/DeveloperGuide/as-register-lbs-with-asg.html)。

**其他资源**  
[Amazon EC2 Auto Scaling 用户指南](https://docs.amazonaws.cn/autoscaling/ec2/userguide/)

**报告列**  
+ Status
+ Region
+ 自动扩缩组名
+ 关联的负载均衡器
+ 运行状况检查

## Auto Scaling 组资源
<a name="auto-scaling-group-resources"></a>

**说明**  
检查与启动配置、启动模板和自动扩缩组关联的资源的可用性。  
指向不可用资源的 Auto Scaling 组无法启动新的 Amazon Elastic Compute Cloud (Amazon EC2) 实例。如果配置正确，Auto Scaling 会在需求高峰期间无缝增加 Amazon EC2 实例的数量，并在需求平缓期间自动减少该数量。指向不可用资源的 Auto Scaling 组和启动 configurations/launch 模板无法按预期运行。  
此检查会报告按标准标记的所有资源以及评估的资源总数，包括 `OK` 资源。资源表仅列出已标记的资源。

**检查 ID**  
`8CNsSllI5v`

**提醒条件**  
+ 红色：自动扩缩组与删除的负载均衡器关联。
+ 红色：启动配置与删除的 Amazon 机器映像（AMI）关联。
+ 红色：启动模板与已删除的亚马逊机器映像（AMI）关联。

**Recommended Action（建议的操作）**  
如果负载均衡器已删除，可以先创建一个新的负载均衡器或目标组，然后将其关联到自动扩缩组；也可以创建一个不包含负载均衡器的新自动扩缩组。有关创建包含新负载均衡器的新自动扩缩组的信息，请参阅[设置自动扩展且负载均衡的应用程序](https://docs.amazonaws.cn/AutoScaling/latest/DeveloperGuide/as-register-lbs-with-asg.html)。有关创建不包含负载均衡器的新自动扩缩组的信息，请参阅[通过控制台开始使用 Auto Scaling](https://docs.amazonaws.cn/AutoScaling/latest/DeveloperGuide/USBasicSetup-Console.html) 中的“创建自动扩缩组”。  
如果 AMI 已删除，则使用有效的 AMI 创建新的启动配置或启动模板版本，然后将其与自动扩缩组关联。有关如何创建新启动配置的信息，请参阅《Amazon EC2 Auto Scaling 用户指南》**中的[创建启动配置](https://docs.amazonaws.cn/autoscaling/ec2/userguide/create-launch-config.html)。有关创建启动模板的信息，请参阅《Amazon EC2 Auto Scaling 用户指南》**中的[为自动扩缩组创建启动模板](https://docs.amazonaws.cn/autoscaling/ec2/userguide/create-launch-template.html)。  
出于安全考虑，检查结果不包括使用启动模板中的 Amazon Systems Manager 参数引用的任何资源。
如果您的启动模板包含包含亚马逊系统映像 (AMI) ID 的 Amazon Systems Manager 参数，请查看启动模板以确保参数引用有效的 AMI ID，或者在 Amazon Systems Manager 参数存储中进行适当的更改。有关更多信息，请参阅 *Amazon EC2 Auto Scaling 用户指南 IDs*中的[使用 Amazon Systems Manager 参数代替 AMI](https://docs.amazonaws.cn/autoscaling/ec2/userguide/using-systems-manager-parameters.html)。

**其他资源**  
+ [Auto Scaling 疑难解答：亚马逊 EC2 AMIs](https://docs.amazonaws.cn/AutoScaling/latest/DeveloperGuide/ts-as-ami.html)
+ [对 Auto Scaling 进行问题排查：负载均衡器配置](https://docs.amazonaws.cn/AutoScaling/latest/DeveloperGuide/ts-as-loadbalancer.html)
+ [Amazon EC2 Auto Scaling 用户指南](https://docs.amazonaws.cn/autoscaling/latest/userguide/)
+ [使用 Amazon Systems Manager 参数代替 AMI IDs](https://docs.amazonaws.cn/autoscaling/ec2/userguide/using-systems-manager-parameters.html)

**报告列**  
+ Status
+ Region
+ 自动扩缩组名
+ 启动类型
+ 资源类型
+ 资源名称

## ELB 连接耗尽
<a name="elb-connection-draining"></a>

**说明**  
检查没有启用连接耗尽的经典负载均衡器。  
当未启用连接耗尽并且您从经典负载均衡器取消注册 Amazon EC2 实例时，经典负载均衡器将停止将流量路由到该实例并关闭连接。启用连接耗尽后，经典负载均衡器将停止向已取消注册的实例发送新请求，但会保持连接打开以处理活动请求。

**检查 ID**  
`7qGXsKIUw`

**提醒条件**  
+ 黄色：经典负载均衡器未启用连接耗尽。
+ 绿色：经典负载均衡器已启用连接耗尽。

**Recommended Action（建议的操作）**  
为经典负载均衡器启用连接耗尽。有关更多信息，请参阅[连接耗尽](https://docs.amazonaws.cn/ElasticLoadBalancing/latest/DeveloperGuide/TerminologyandKeyConcepts.html#conn-drain)和[为负载均衡器启用或禁用连接耗尽](https://docs.amazonaws.cn/ElasticLoadBalancing/latest/DeveloperGuide/config-conn-drain.html)。

**其他资源**  
[Elastic Load Balancing 概念](https://docs.amazonaws.cn/ElasticLoadBalancing/latest/DeveloperGuide/TerminologyandKeyConcepts.html)

**报告列**  
+ Status
+ Region
+ 负载均衡器名称
+ Reason

## 负载均衡器优化
<a name="load-balancer-optimization"></a>

**说明**  
检查您的负载均衡器配置。  
为了帮助在使用 Elastic Load Balancing 时提高 Amazon Elastic Compute Cloud (Amazon EC2) 的容错能力级别，我们建议在一个区域的多个可用区中运行相同数量的实例。配置的负载均衡器会产生费用，因此这也是成本优化检查。

**检查 ID**  
`iqdCTZKCUp`

**提醒条件**  
+ 黄色：已为单个可用区启用负载均衡器。
+ 黄色：已为没有活跃实例的可用区启用负载均衡器。
+ 黄色：在负载均衡器注册的 Amazon EC2 实例未在可用区之间平均分配。（使用的可用区中的最高实例数与最低实例数之差大于 1，且差值大于最高数量的 20%。）

**Recommended Action（建议的操作）**  
确保负载均衡器指向至少两个可用区内活跃并运行正常的实例。有关更多信息，请参见[添加可用区](https://docs.amazonaws.cn/ElasticLoadBalancing/latest/DeveloperGuide/enable-disable-az.html#US_AddLBAvailabilityZone)。  
如果负载均衡器配置的对象是没有正常运行实例的可用区，或者可用区之间的实例分配不均衡，请确定所有可用区是否都是必要的。删除所有不必要的可用区，并确保实例在其余可用区之间均衡分配。有关更多信息，请参阅[删除可用区](https://docs.amazonaws.cn/ElasticLoadBalancing/latest/DeveloperGuide/enable-disable-az.html#US_ShrinkLBApp04)。

**其他资源**  
+ [可用区和区域](https://docs.amazonaws.cn/ElasticLoadBalancing/latest/DeveloperGuide/TerminologyandKeyConcepts.html#AZ-Region)
+ [管理负载均衡器](https://docs.amazonaws.cn/ElasticLoadBalancing/latest/DeveloperGuide/UserScenarios.html)
+ [评估 Elastic Load Balancing 的最佳实践](https://www.amazonaws.cn/articles/1636185810492479)

**报告列**  
+ Status
+ Region
+ 负载均衡器名称
+ 区域数量
+ a 区实例
+ b 区实例
+ c 区实例
+ d 区实例
+ e 区实例
+ f 区实例
+ Reason