高可用性和灾难恢复 - SAP HANA 开启 Amazon
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

高可用性和灾难恢复

Amazon 提供了多种选项,用于执行灾难恢复和使您的 SAP HANA 系统具有高可用性。本节提供有关这些解决方案的信息。它还涵盖了 Amazon 平台上对 SAP 提供的原生 SAP HANA 恢复功能的支持。

Amazon EC2 恢复选项

您可以使用以下恢复选项恢复在 Amazon EC2 实例上运行的 SAP HANA 数据库。

Simplified automatic recovery

由于硬件故障或需要参与的问题,Amazon EC2 实例的默认配置允许自动恢复支持的实例 Amazon。自动恢复您的 Amazon EC2 实例可以提高 SAP 工作负载的弹性。有关更多信息,请参阅基于实例配置的简化自动恢复

Amazon CloudWatch action based recovery

您可以创建StatusCheckFailed_System CloudWatch 警报来监控 Amazon EC2 实例。由于以下原因,系统状态检查可能会失败:

  • 网络连接丢失

  • 系统电源损耗

  • 物理主机上的软件问题

  • 物理主机上影响到网络连接状态的硬件问题

当 CloudWatch 警报检测到此故障时,将启动恢复操作。恢复的实例与原始实例相同,包括实例 ID、私有 IP 地址、弹性 IP 地址以及所有实例元数据。有关更多信息,请参阅 Amazon 基于 CloudWatch 操作的恢复

提示

使用创建StatusCheckFailed_System CloudWatch 警报时 Amazon Web Services Management Console,请将其与 Amazon SNS 关联以接收电子邮件通知。或者,您可以在创建警报后设置 Amazon SMS 通知。有关更多信息,请参阅设置 Amazon SNS 通知

Dedicated host recovery

如果由于系统电源或网络连接事件而导致专属主机故障,专属主机恢复自动在新的替换主机上重新启动实例。有关更多信息,请参阅主机恢复

我们建议您配置 Amazon EC2 实例(第三方集群解决方案中的实例除外),并配置具有自动恢复功能的专用主机,以防出现硬件故障。下图说明了 Amazon EC2 恢复选项。

该图显示了 Amazon EC2 上运行的 SAP HANA 数据库的恢复选项。

SAP HANA 服务自动重启

SAP HANA 服务自动重启是 SAP 提供的故障恢复解决方案。SAP HANA 有许多已配置的服务一直在运行,用于各种活动。当这些服务中的任何一个由于软件故障或人为错误而被禁用时,该服务将通过 SAP HANA 服务自动重启看门狗功能自动重新启动。当服务重新启动时,它会将所有必要的数据加载回内存并恢复其操作。SAP HANA 服务自动重启解决方案的工作方式与在 Amazon 任何其他平台上的运行方式相同。使用 SAP HANA 服务自动重启Amazon EC2 恢复选项是一种强大的灾难恢复解决方案。

SAP HANA 备份/还原

尽管 SAP HANA 是一个内存数据库,但它会将所有更改保留在持久存储中,以便从任何故障(例如停电)中恢复和恢复。如果永久存储损坏或出现任何逻辑错误,则需要使用 SAP HANA 备份来恢复数据库。可以定期将 SAP HANA 数据库备份文件备份到远程位置以用于灾难恢复。SAP HANA 备份/恢复的工作方式与在任何其他 Amazon 平台上的运行方式相同。有关更多信息,请参阅 SAP HANA 管理指南

Amazon Backint Agent for SAP HANA

Amazon Backint Agent for SAP HANA Amazon (Backint agent)是一项经过 SAP 认证的备份和还原应用程序,适用于在云端的 Amazon EC2 实例上运行的 SAP HANA 工作负载。 Amazon Backint Agent 作为独立应用程序运行,可与您的现有工作流集成,将 SAP HANA 数据库备份到 SAP HANA 数据库,Amazon S3并使用 SAP HANA Cockpit、SAP HANA Studio 和 SQL 命令将其恢复。 Amazon Backint 代理支持 SAP HANA 数据库的完整、增量和差异备份。此外,您可以将日志文件和目录备份到。Amazon S3有关更多信息,请参阅 Amazon Backint Agent for SAP HANA

示例方案

Amazon Backint Agent for SAP HANA 使您能够让 SAP HANA 系统 Amazon 处于高度可用状态,为灾难恢复做好准备。要了解更多信息,请参阅以下示例场景。

  1. 在可用区 1 的亚马逊 EC2 上运行你的 SAP HANA 系统。

  2. StatusCheckFailed_System CloudWatch 警报设置为在系统检查失败时自动恢复您的 Amazon EC2 实例。

    1. 您的实例在同一可用区内恢复。

    2. 当可用区不可用时,您可能无法访问该实例。

  3. 使用可用区 2 中的 Amazon CloudFormation 模板启动新 Amazon EC2 实例 有关更多信息,请参阅通过启动模板启动实例

  4. 使用 B Amazon ackint 代理从亚马逊 S3 恢复你的 SAP HANA 数据库。有关更多信息,请参阅使用适用于 SAP HANA 的 Backint Agen Amazon t 备份和还原 SAP HANA 系统

  5. 在 Amazon EC2 上运行的新 SAP HANA 系统运行后,将您的客户端流量重定向到该系统。

    备份和还原 Amazon Backint Agent for SAP HANA

在这种情况下,您可以避免使用备用节点的成本。使用 Amazon 多可用区域基础架构和带有 Backint Agent for SAP HANA 的 Amazon 备份/恢复,您可以快速恢复运营并显著降低停机成本。

精心设计的恢复过程使该模型适用于较长的恢复时间目标和大于零的恢复点目标。您的恢复点目标取决于您在 Amazon S3 中存储 SAP HANA 备份文件的频率。

您可以使用 Amazon Backint 代理将 SAP HANA 系统备份存储到 Amazon S3,从而降低恢复点目标。此外,您可以从 Amazon S3 中的备份文件中快速恢复,而无需创建自定义脚本来手动将 SAP HANA 备份文件复制到 Amazon S3 或从中复制。

是时候备份了

使用 Bac Amazon kint 代理在 Amazon EC2 上备份和恢复 SAP HANA 数据库所花费的时间取决于您的系统配置。它们包括 Amazon EC2 实例类型、Amazon EBS 卷类型和数据库大小。以下是影响备份和恢复 SAP HANA 系统所花费时间的关键变量。

  • 支持 SAP HANA 数据库的底层 Amazon EBS 卷的存储吞吐量

  • 支持与 Amazon S3 通信通道的网络吞吐量

  • 实例类型上的可用 CPU 资源

恢复时间和恢复点目标

我们建议您进行各种测试,以确定适合您的业务恢复时间和点目标的正确系统配置。 Amazon 适用于 SAP HANA 的 Backint Agent 通过并行处理备份和恢复过程来最大限度地提高可用吞吐量。恢复时间目标针对任何给定的系统配置进行了优化。例如,使用 r5.2xlarge 上的 SAP HANA 纵向扩展节点,B Amazon ackint 代理能够在 4 分 15 秒内上传 551GB 的数据,实现了 2.16GB/s 的总吞吐量。同样,对于在u6-tb1.metal实例上运行的4节点SAP HANA横向扩展,B Amazon ackint代理能够在23分钟内上传22.86TB的数据,实现了16.8GB/s的总吞吐量。

根据我们的测试,使用 Amazon Backint 代理执行恢复操作所需的时间通常是备份时间的 1.5 到 2 倍。有关更多信息,请参阅性能调整

Amazon EBS 快照

您可以通过拍摄 point-in-time 快照将 Amazon EBS 卷上的数据备份到 Amazon S3。无论数据库大小如何,快照都能提供快速的备份过程。它们存储在 Amazon S3 中,并自动跨可用区域复制。

默认情况下,Amazon EBS 快照是增量的。仅存储自上次快照以来的增量更改。快照也具有崩溃一致性。它们包含已完成的 I/O 操作块。您可以跨 Amazon 区域复制快照或与其他 Amazon 账户共享。您可以从快照恢复 Amazon EBS 卷,或者在相同或不同的可用区域中使用快照创建新卷,然后启动 Amazon EC2 实例。Amazon EBS 快照提供了一种简单而安全的数据保护解决方案,旨在保护您的块存储数据,例如 Amazon EBS 卷、启动卷和本地块数据。有关更多信息,请参阅 Amazon EBS 快照

Amazon EBS 快照还可用于实现灾难恢复,以及跨 Amazon 区域和账户迁移数据。Amazon EBS 快速快照还原使您能够从创建时已完全初始化的快照创建卷。这会消除首次访问块时对其执行 I/O 操作的延迟。使用快速快照还原创建的卷可以立即交付其所有预置性能。Amazon EBS 快速快照还原可以在创建快照时为快照启用。它可以帮助您实现较短的恢复时间目标。有关更多信息,请参阅 Amazon EBS 快速快照恢复

集群解决方案

上 Amazon 的 SAP HANA 工作负载是在基础架构层以高度可用和容错的方式配置的。仍然需要在 SAP HANA 数据库层管理故障。如果在硬件或软件级别检测到故障,则可以使用 SAP HANA cockpit、SAP HANA studio 或hdbnsutil命令行工具执行手动故障转移过程。手动流程可能会影响业务流程的可用性。

你还可以使用 SAP HANA 中包含的基于 Python 的 API 来创建自己的高可用性和灾难恢复提供程序或挂钩。然后,您可以将这些挂钩与 SAP HANA 系统复制接管过程集成,以自动执行诸如重启主节点、IP 重定向、DNS 重定向和关闭辅助节点中的 Dev/QA 系统等任务。有关更多信息,请参阅实现 HA/DR 提供程序。

根据您的 SAP HANA 数据库的操作系统,您可以实施第三方高可用性集群解决方案。它可以减少停机时间并自动执行故障转移步骤。以下解决方案包括起搏器框架以及经过 SAP 认证并支持的 SAP HANA 挂钩。 Amazon

  • SUSE Linux Enterprise Server (SLES) 高可用性扩展 (HAE

  • 适用于 SAP 高可用性的红帽企业 Linux(RHEL)

有关更多信息,请参阅 SAP HANA on Amazon:SLES 和 RHEL 高可用性配置指南

Pacemaker 集群

基于 SAP HANA 系统复制的 SAP HANA 高可用性解决方案可自动执行主实例和辅助 SAP HANA 实例之间的故障转移。主实例和辅助实例一起配置为 pacemaker 群集。集群软件位于操作系统层,使用 SAP HANA 挂钩与 SAP HANA 数据库集成。群集软件可检测并自动执行故障转移。恢复时间可以在几分钟或更短的时间内完成。有关更多信息,请参阅 SAP HANA 系统复制

SUSE 的 Saphanasr 和 Saphanasr-Scale-Out 解决方案基于起搏器和 corosync。它们以及适用于 SAP HANA 的专用资源代理是作为 SAP 应用程序 SLES 的一部分发布的。有关如何在 SLES for SAP Applications 上设置高可用性群集的更多信息 Amazon,请参阅 SLE S 上的高可用性群集配置

RHEL 的高可用性解决方案还提供了 pacemaker 群集框架和 SAP HANA 系统复制自动化故障转移过程所需的资源代理。有关如何在 RHEL 上设置高可用性集群的更多信息 Amazon,请参阅 RHEL 上的高可用性集群配置。以下资源可从红帽获得。

有关使用适用于 SAP 的 SAP HANA 系统复制 Amazon Launch Wizard 的自动部署,请参阅Amazon Launch Wizard 适用于 SAP

pacemaker 集群使用虚拟 IP 地址连接到主 SAP HANA 实例。在故障转移期间,虚拟 IP 地址会迁移到辅助实例。然后将辅助实例提升为流量重定向的主实例。重叠 IP 地址用于上的网络配置 Amazon。它是一个虚拟 IP 地址,配置为指向主 SAP HANA 实例,无论该实例位于主节点还是辅助节点上。您可以使用 Amazon Transit Gateway 或 Network Load Balancer 配置叠加 IP 路由。有关更多信息,请参阅 SAP:具有覆盖 IP 地址路由 Amazon 的高可用性配置上的 SAP。

Amazon Launch Wizard 适用于 SAP

Amazon Launch Wizard for SAP 为生产就绪型应用程序提供指导性部署, Amazon 包括资源规模、可自定义部署、应用程序配置和成本估算。这些工具消除了高可用性部署的复杂性。有关更多信息,请参阅 Amazon Launch Wizard for SAP

Amazon Launch Wizard for SAP 可以快速跟踪你的 SAP HANA 部署。 Amazon它需要最少的人工干预。支持 SAP HANA 的以下高可用性自动部署模式 Amazon Launch Wizard。

  • 跨可用区 SAP HANA 数据库高可用性设置:部署跨两个可用区配置了高可用性的 SAP HANA。

  • 跨可用区 SAP NetWeaver 系统设置:在两个可用区之间部署 ASCS/ERS 和 SAP HANA 数据库的 Amazon EC2 实例,并将应用程序服务器的部署分散到两个可用区。

  • SUSE/RHEL 集群设置:对于 SAP HANA 和 NetWeaver HANA 高可用性部署,当提供 SAP 软件并指定 SAP 数据库或应用程序软件的部署时,Launch Wizard for SAP 会配置 SUSE/RHEL 集群。已为跨两个可用区的 SAP HANA 数据库启用集群。请参阅下图。

    跨两个可用区的 SAP HANA 高可用性配置示例
    注意

    我们强烈建议您在使用高可用性群集进行部署之前验证环境的设置。在 Launch Wizard 设置的 SAP HANA 实例上部署应用程序之前,请先运行测试。这些测试可以确保故障转移和故障恢复操作正常运行。

下表总结了 SAP 支持的 Amazon Launch Wizard 部署模式。

部署模式 支持
单个 Amazon EC2 实例上的 SAP HANA 数据库 支持
单个 Amazon EC2 实例上的 SAP HANA NetWeaver 支持
多个 Amazon EC2 实例上的 SAP HANA 数据库 支持
多个 Amazon EC2 实例上的 SAP NetWeaver 系统 支持
跨可用区 SAP HANA 数据库高可用性设置 支持
跨可用区 SAP NetWeaver 系统设置 支持
SUSE/RHEL 集群设置 支持

有关更多信息,请参阅支持的部署和功能 Amazon Launch Wizard

Amazon Application Migration Service 和 Amazon Elastic Disaster Recovery

我们建议使用 Amazon Application Migration Service 将您的 SAP HANA 数据库迁移到 Amazon。有关更多信息,请参阅什么是 Amazon Application Migration Service

对于灾难恢复,我们建议使用 Amazon Elastic Disaster Recovery。它使用块级复制将数据从源持续复制到目标。它有助于降低基础架构成本和总拥有成本。它提供了亚秒级的恢复点目标和几分钟的恢复时间目标。有关更多信息,请参阅什么是 Amazon Elastic Disaster Recovery

Cloud Endure是一家 Amazon 公司,也提供迁移和灾难恢复服务。Cloud Endure 灾难恢复服务是一种业务连续性产品,可用于 SAP 和非 SAP 工作负载。