本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 Neptune 流跨区域复制进行灾难恢复
Neptune 提供了两种实现跨区域失效转移功能的方法:
跨区域快照复制和还原
使用 Neptune 流在两个不同区域中的两个集群之间复制数据。
跨区域快照复制和还原在不同区域中恢复 Neptune 集群的操作开销最低。但是,在区域之间复制快照可能需要大量的数据传输时间,因为快照是 Neptune 集群的完整备份。因此,跨区域快照复制和还原可用于只需要几个小时的恢复点目标 (RPO) 和几个小时的恢复时间目标 (RTO) 的场景。
恢复点目标 (RPO) 由两次备份之间的时间来衡量。它定义了从上次备份的时间到恢复数据库的时间之间可能丢失的数据量。
恢复时间目标 (RTO) 是通过执行恢复操作所花费的时间来衡量的。这是数据库集群在故障发生后失效转移到已恢复的数据库所花费的时间。
Neptune 流提供了一种使备份 Neptune 集群始终与主生产集群保持同步的方法。如果发生故障,您的数据库将失效转移到备份集群。这会将 RPO 和 RTO 缩短到几分钟,因为数据不断复制到备份集群,备份集群在任何时候都可以立即用作失效转移目标。
以这种方式使用 Neptune 流的缺点是,维护复制组件所需的操作开销以及让第二个 Neptune 数据库集群一直处于在线状态的成本都可能很高。
设置 Neptune 到 Neptune 的复制
主生产数据库集群位于给定源区域的 VPC 中。为了进行灾难恢复,您需要在不同的恢复区域中复制或模拟三项主要内容:
存储在集群中的数据。
主集群的配置。这将包括它是否使用 IAM 身份验证、是否已加密、其数据库集群参数、其实例参数、实例大小等。
它使用的网络拓扑,包括目标 VPC、其安全组等。
您可以使用如下所示的 Neptune 管理 API 来收集这些信息:
根据您收集的信息,您可以使用以下过程在不同的区域中设置备份集群,如果出现故障,您的生产集群可以失效转移到该备份集群。
1:启用 Neptune 流
您可以使用 ModifyDBClusterParameterGroup 将 neptune_streams
参数设置为 1。然后,重启数据库集群中的所有实例,以使更改生效。
启用 Neptune 流后,最好在源数据库集群上至少执行一次添加或更新操作。这会在更改流中填充数据点,以后在将生产集群与备份集群重新同步时可以参考这些数据点。
2:在要设置备份集群的区域中创建新的 VPC
在与主集群不同的区域中创建新的 Neptune 数据库集群之前,您需要在目标区域建立一个新的 VPC 来托管该集群。主集群和备份集群之间的连接是通过 VPC 对等连接建立的,而 VPC 对等连接使用不同 VPC 中的私有子网间的流量。但是,要在两个 VPC 之间建立 VPC 对等连接,它们的 CIDR 块或 IP 地址空间不得重叠。这意味着,您不能在这两个区域中都只使用默认 VPC,因为默认 VPC 的 CIDR 块始终相同 (172.31.0.0/16
)。
您可以使用目标区域中的现有 VPC,只要它满足以下条件即可:
它的 CIDR 块不与您的主集群所在 VPC 的 CIDR 块重叠。
它与另一个 VPC(与您的主集群所在的 VPC 具有相同 CIDR 块)尚未建立对等连接。
如果目标区域中没有合适的 VPC 可用,请使用 Amazon EC2 CreateVpc
API 创建一个。
3:创建主集群的快照并将其还原到目标备份区域
现在,您可以在目标备份区域的相应 VPC 中创建一个新的 Neptune 集群,该集群是您的生产集群的副本:
在备份区域中制作生产集群的副本
-
在目标备份区域中,重新创建生产数据库集群使用的参数和参数组。为此,您可以使用 CreateDBClusterParameterGroup、CreateDBParameterGroup、ModifyDBClusterParameterGroup 和 ModifyDBParameterGroup。
请注意,CopyDBClusterParameterGroup 和 CopyDBParameterGroup API 目前不支持跨区域复制。
使用 CreateDBClusterSnapshot 在生产区域的 VPC 中创建生产集群的快照。
使用 CopyDBClusterSnapshot 将快照复制到目标备份区域中的 VPC。
使用 RestoreDBClusterFromSnapshot 通过复制的快照在目标备份区域的 VPC 中创建新的数据库集群。使用您从主生产集群中复制的配置设置和参数。
-
新的 Neptune 集群现已存在,但不包含任何实例。使用 CreateDBInstance 创建新的主/写入器实例,其实例类型和大小与生产集群的写入器实例相同。此时无需创建其它只读副本,除非您的备份实例将在失效转移之前用于为目标区域的读取 I/O 提供服务。
4:在主集群的 VPC 和新的备份集群的 VPC 之间建立 VPC 对等连接
通过设置 VPC 对等连接,您可以使主集群的 VPC 与备份集群的 VPC 通信,就像它们是单个私有网络一样。为此,请执行以下步骤:
从生产集群的 VPC 中,调用
CreateVpcPeeringConnection
API 以建立对等连接。从目标备份集群的 VPC 中,调用
AcceptVpcPeeringConnection
API 以接受对等连接。从生产集群的 VPC 中,使用
CreateRoute
API 向 VPC 的路由表添加一条路由,该路由将所有流量重定向到目标 VPC 的 CIDR 块,以便它使用 VPC 对等连接前缀列表。同样,从目标备份集群的 VPC,使用
CreateRoute
API 向 VPC 的路由表添加一条路由,该路由将流量路由到主集群的 VPC。
5:设置 Neptune 流复制基础设施
现在,两个集群都已部署完毕,两个区域之间的网络通信也已建立,请使用 Nep tune-to-Neptune 模板 Amazon CloudFormation 来部署 N eptune 流使用者 Lambda 函数以及支持数据复制的额外基础架构。在主生产集群的 VPC 中执行此操作。
您需要为此 Amazon CloudFormation 堆栈提供的参数是:
-
NeptuneStreamEndpoint
– 主集群的流端点,采用 URL 格式。例如:https://
。(cluster name)
:8182/pg/stream -
QueryEngine
– 这必须是gremlin
、sparql
或openCypher
。 -
RouteTableIds
– 允许您为 DynamoDB VPC 端点和监控 VPC 端点添加路由。如果主集群的 VPC 上尚不存在另外两个参数,即
CreateMonitoringEndpoint
和CreateDynamoDBEndpoint
,则也必须将它们设置为 true。如果它们已经存在,请确保将其设置为 false,否则 Amazon CloudFormation 创建将失败。 -
SecurityGroupIds
– 指定 Lambda 使用者用于与主集群的 Neptune 流端点通信的安全组。在目标备份集群中,附加一个允许来自该安全组的流量的安全组。
-
SubnetIds
– 主集群 VPC 中的子网 ID 列表,Lambda 使用者可以使用该子网与主集群进行通信。 -
TargetNeptuneClusterEndpoint
– 目标备份集群的集群端点(仅限主机名)。 -
TargetAWSRegion
— 目标备份集群的 Amazon 区域,例如us-east-1
)。只有当目标备份集群的 Amazon 区域与 Neptune 源集群的区域不同时(例如跨区域复制),您才必须提供此参数。如果源区域和目标区域相同,则此参数是可选的。请注意,如果该
TargetAWSRegion
值不是 Nep tune 支持的有效 Amazon 区域,则该过程将失败。 -
VPC
– 主集群的 VPC 的 ID。
所有其它参数均可保留默认值。
Amazon CloudFormation 模板部署完成后,Neptune 将开始将所有更改从主集群复制到备份集群。您可以在 Lambda 使用者函数生成的 CloudWatch 日志中监控此复制。
其他考虑因素
如果您需要在主集群和备份集群之间使用 IAM 身份验证,也可以在调用模板时进行 Amazon CloudFormation 设置。
如果对主集群启用了静态加密,则在将快照复制到目标区域并在目标区域中关联新的 KMS 密钥时,请考虑如何管理关联的 KMS 密钥。
最佳实践是在应用程序中使用的 Neptune 端点前方使用 DNS CNAME。然后,如果您需要手动失效转移到目标备份集群,则可以将这些 CNAME 更改为指向目标集群和/或实例端点。