高可用性和灾难恢复 - SAP HANA 开启 Amazon
Amazon Web Services 文档中描述的 Amazon Web Services 服务或功能可能因区域而异。要查看适用于中国区域的差异,请参阅 中国的 Amazon Web Services 服务入门 (PDF)

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

高可用性和灾难恢复

Amazon为执行灾难恢复和使 SAP HANA 系统高度可用提供了多种选项。本节提供有关这些解决方案的信息。它还涵盖了Amazon平台上对 SAP 提供的本机 SAP HANA 恢复功能的支持。

亚马逊 EC2 恢复选项

您可以使用以下恢复选项恢复在 Amazon EC2 实例上运行的 SAP HANA 数据库。

Simplified automatic recovery

由于硬件故障或需要参与的问题,Amazon EC2 实例的默认配置允许自动恢复支持的实例Amazon。自动恢复 Amazon EC2 实例可提高您的 SAP 工作负载的弹性。有关更多信息,请参阅基于实例配置的简化自动恢复

Amazon CloudWatch action based recovery

您可以创建StatusCheckFailed_SystemCloudWatch警报来监控您的 Amazon EC2 实例。由于以下原因,系统状态检查可能失败:

  • 网络连接丢失

  • 系统电源损耗

  • 物理主机上的软件问题

  • 物理主机上影响到网络连接状态的硬件问题

当CloudWatch警报检测到此故障时,将启动恢复操作。恢复的实例与原始实例相同,包括实例 ID、私有 IP 地址、弹性 IP 地址以及所有实例元数据。有关更多信息,请参阅亚马逊基于CloudWatch操作的恢复

提示

使用Amazon Web Services Management Console创建StatusCheckFailed_SystemCloudWatch警报时,将其与 Amazon SNS 关联以接收电子邮件通知。或者,您可以在创建警报后设置 Amazon SNS 通知。有关更多信息,请参阅设置 Amazon SNS 通知

Dedicated host recovery

当由于系统电源或网络连接事件导致专用主机出现故障时,专用主机自动恢复会在新的替代主机上重新启动您的实例。有关更多信息,请参阅主机恢复

我们建议配置您的 Amazon EC2 实例(第三方集群解决方案中的实例除外)和具有自动恢复功能的专用主机,以防出现硬件故障。下图说明了 Amazon EC2 恢复选项。

SAP HANA 服务自动重启

SAP HANA 服务自动重启是 SAP 提供的故障恢复解决方案。SAP HANA 有许多已配置的服务一直在运行,用于各种活动。当这些服务中的任何一项由于软件故障或人为错误而被禁用时,该服务将通过 SAP HANA 服务自动重启监视器功能自动重启。当服务重新启动时,它会将所有必需的数据加载回内存并恢复其操作。SAP HANA 服务自动重启解决方案的工作方式与在Amazon任何其他平台上的工作方式相同。使用 SAP HANA 服务自动重启亚马逊 EC2 恢复选项是一种强大的灾难恢复解决方案。

SAP HANA 备份/恢复

尽管 SAP HANA 是一个内存数据库,但它会将所有更改保留在永久存储中,以便从任何故障(例如停电)中恢复和恢复。如果永久存储损坏或出现任何逻辑错误,则需要 SAP HANA 备份来恢复数据库。SAP HANA 数据库备份文件可以定期备份到远程位置以用于灾难恢复。SAP HANA 备份/恢复的工作方式与在Amazon任何其他平台上的工作方式相同。有关更多信息,请参阅《SAP HANA 管理指南》

AmazonSAP HANA 后备代理

AmazonSAP HANA 的 Backint Agent(AmazonBackint 代理)是一款经过 SAP 认证的备份和恢复应用程序,适用于在云端 Amazon EC2 实例上运行的 SAP HANA 工作负载。 AmazonBackint 代理作为独立应用程序运行,它与您的现有工作流程集成,使用 SAP HANA Cockpit、SAP HANA Studio Amazon S3 和 SQL 命令将您的 SAP HANA 数据库备份到数据库并将其恢复。 AmazonBackint 代理支持 SAP HANA 数据库的完整、增量和差异备份。此外,您可以将日志文件和目录备份到。Amazon S3有关更多信息,请参阅适用于 SAP HANA 的 Amazon Backint 代理

示例方案

Amazon适用于 SAP HANA 的 Backint Agent 使你能够使 SAP HANA 系统处于Amazon高可用状态,为灾难恢复做好准备。要了解更多信息,请参阅以下示例场景。

  1. 在可用区 1 的亚马逊 EC2 上运行您的 SAP HANA 系统。

  2. StatusCheckFailed_SystemCloudWatch警报设置为在系统检查失败时自动恢复您的 Amazon EC2 实例。

    1. 您的实例在同一个可用区内恢复。

    2. 当可用区变得不可用时,您可能无法访问实例。

  3. 使用可用区 2 中的Amazon CloudFormation模板启动新的 Amazon EC2 实例。有关更多信息,请参阅从启动模板启动实例

  4. 使用 Amazon Backint 代理从亚马逊 S3 恢复您的 SAP HANA 数据库。有关更多信息,请参阅使用适用于 SAP HANA 的 Backint Agen Amazon t 备份和还原您的 SAP HANA 系统

  5. 当 Amazon EC2 上的新 SAP HANA 系统运行时,将您的客户端流量重定向到该系统。

在这种情况下,您可以避免备用节点的成本。使用Amazon多可用区基础设施和适用于 SAP HANA 的 Bac Amazon kint Agent 的备份/恢复,您可以快速恢复运营并显著减少停机成本。

精心设计的恢复过程使该模型适用于更长的恢复时间目标和大于零的恢复点目标。您的恢复点目标取决于您在 Amazon S3 中存储 SAP HANA 备份文件的频率。

您可以通过 Amazon Backint 代理将您的 SAP HANA 系统备份存储到 Amazon S3 来降低恢复点目标。此外,您可以从 Amazon S3 中的备份文件中快速恢复,无需创建自定义脚本来手动将 SAP HANA 备份文件复制到 Amazon S3 或从 Amazon S3 中复制。

是时候备份了

使用 Amazon Backint 代理在 Amazon EC2 上备份和恢复 SAP HANA 数据库所花费的时间取决于您的系统配置。其中包括亚马逊 EC2 实例类型、亚马逊 EBS 卷类型和数据库大小。以下是影响备份和恢复 SAP HANA 系统所花费时间的关键变量。

  • 支持 SAP HANA 数据库的底层 Amazon EBS 卷的存储吞吐量

  • 支持与 Amazon S3 通信通道的网络吞吐量

  • 实例类型上的可用 CPU 资源

恢复时间和点数目标

我们建议您进行各种测试,以确定适合您的业务恢复时间和点位目标的正确系统配置。 Amazon适用于 SAP HANA 的 Backint Agent 通过并行处理备份和恢复过程来最大限度地提高可用吞吐量。恢复时间目标针对任何给定的系统配置进行了优化。例如,使用 r5.2xlarge 上的 SAP HANA 纵向扩展节点,B Amazon ackint 代理能够在 4 分 15 秒内上传 551GB 的数据,实现了 2.16GB/s 的总吞吐量。同样,对于在 u6-tb1.metal 实例上运行的 4 节点 SAP HANA 横向扩展,B Amazon ackint 代理能够在 23 分钟内上传 22.86TB 的数据,实现了 16.8GB/s 的总吞吐量。

根据我们的测试,使用 Amazon Backint 代理进行恢复操作所花费的时间通常是备份时间的 1.5 到 2 倍。有关更多信息,请参阅性能调整

Amazon EBS 快照

您可以通过拍摄point-in-time快照将亚马逊 EBS 卷上的数据备份到 Amazon S3。无论数据库大小如何,快照都能提供快速的备份过程。它们存储在 Amazon S3 中并在可用区之间自动复制。

默认情况下,亚马逊 EBS 快照是增量的。仅存储自上次快照以来的增量更改。快照还具有崩溃一致性。它们包含已完成的 I/O 操作块。您可以跨Amazon区域复制快照或与其他Amazon账户共享。您可以从快照恢复 Amazon EBS 卷,或者使用相同或不同的可用区中的快照创建新卷,然后启动 Amazon EC2 实例。Amazon EBS 快照提供了一种简单而安全的数据保护解决方案,旨在保护您的块存储数据,例如 Amazon EBS 卷、启动卷和本地块数据。有关更多信息,请参阅 Amazon EBS 快照

Amazon EBS 快照还可用于启用灾难恢复,以及跨Amazon区域和账户迁移数据。Amazon EBS 快速快照还原使您能够从创建时已完全初始化的快照创建卷。这会消除首次访问块时对其执行 I/O 操作的延迟。使用快速快照还原创建的卷可以立即交付其所有预置性能。在创建快照时,可以在快照上启用 Amazon EBS 快速快照还原。它可以帮助您实现较短的恢复时间目标。有关更多信息,请参阅 Amazon EBS 快速快照恢复

集群解决方案

上Amazon的 SAP HANA 工作负载是在基础设施层以高可用性和容错方式配置的。仍然需要在 SAP HANA 数据库层管理故障。如果在硬件或软件级别检测到故障,则可以使用 SAP HANA 驾驶舱、SAP HANA 工作室或hdbnsutil命令行工具执行手动故障转移过程。手动流程可能会影响业务流程的可用性。

您还可以使用 SAP HANA 中包含的基于 Python 的 API 来创建自己的高可用性和灾难恢复提供程序或挂钩。然后,您可以将这些挂钩与 SAP HANA 系统复制接管过程集成,以自动执行任务,例如重启主节点、IP 重定向、DNS 重定向以及关闭辅助节点中的 dev/QA 系统。有关更多信息,请参阅实现 HA/DR 提供商。

根据您的 SAP HANA 数据库的操作系统,您可以实施第三方高可用性集群解决方案。它可以减少停机时间并自动执行故障转移步骤。以下解决方案包括起搏器框架以及经过 SAP 认证并提供支持的 SAP HANA 挂钩。Amazon

  • SUSE Linux 企业服务器 (SLES) 高可用性扩展 (HAE)

  • 用于 SAP 高可用性的红帽企业 Linux (RHEL)

有关更多信息,请参阅 SAP HANA 上的Amazon:SLES 和 RHEL 高可用性配置指南

起搏器集群

基于 SAP HANA 系统复制的 SAP HANA 高可用性解决方案可自动在主 SAP HANA 实例和辅助 SAP HANA 实例之间进行故障转移。主实例和辅助实例一起配置为 pacemaker 集群。集群软件位于操作系统层,使用 SAP HANA 挂钩与 SAP HANA 数据库集成。群集软件会检测并自动进行故障转移。恢复时间可以以分钟或更短为单位。有关更多信息,请参阅 SAP HANA 系统复制

SUSE 的 saphanASR 和 saphanasr-Scale-out 解决方案基于起搏器和 corosync。这些以及 SAP HANA 的专用资源代理是作为 SAP 应用程序的 SLES 的一部分发布的。有关如何在 SLES 上为 SAP 应用程序设置高可用性群集的更多信息,请参阅 SLES 上的Amazon高可用性群集配置

RHEL 的高可用性解决方案还提供了 pacemaker 集群框架和 SAP HANA 系统复制的自动化故障转移过程所需的资源代理。有关如何在 RHEL 上设置高可用性集群的更多信息,请参阅 RHEL 上的Amazon高可用性群集配置。以下资源可从 Red Hat 获得。

有关使用适用于 SAP 的 SAP HANA 系统复制Amazon Launch Wizard的自动部署,请参见Amazon Launch Wizard for SAP

pacemaker 集群使用虚拟 IP 地址连接到主 SAP HANA 实例。在故障转移期间,虚拟 IP 地址将迁移到辅助实例。然后,辅助实例被提升为活动主实例以进行流量重定向。上使用重叠 IP 地址进行网络配置Amazon。它是一个虚拟 IP 地址,配置为指向主 SAP HANA 实例,无论它在主节点上还是辅助节点上。您可以使用Amazon Transit Gateway或网络负载均衡器配置重叠 IP 路由。有关更多信息,请参阅 SAP 关于使用重叠 IP 地址路由实现Amazon高可用性

Amazon Launch Wizard for SAP

Amazon Launch Wizardfor SAP 为生产就绪型应用程序提供指导性部署Amazon,包括资源规模、可定制部署、应用程序配置和成本估算。这些工具消除了高可用性部署的复杂性。有关更多信息,请参Amazon Launch Wizard阅 SAP

Amazon Launch Wizard适用于 SAP 可以快速跟踪您的 SAP HANA 部署。Amazon它需要最少的手动干预。支持以下 SAP HANA 的高可用性自动部署模式Amazon Launch Wizard。

  • 跨可用区 SAP HANA 数据库高可用性设置:部署 SAP HANA,在两个可用区中配置高可用性。

  • 跨可用区 SAP NetWeaver 系统设置:在两个可用区中部署 ASCS/ERS 和 SAP HANA 数据库的 Amazon EC2 实例,并将应用程序服务器的部署分布在两个可用区之间。

  • SUSE/RHEL 集群设置:对于 SAP HANA 和 NetWeaver HANA 高可用性部署,当您提供 SAP 软件并指定 SAP 数据库或应用程序软件的部署时,SAP 启动向导会配置 SUSE/RHEL 集群。在 ASCS 和 ERS 节点之间启用了跨两个可用区的 SAP HANA 数据库的集群。参见下图。

    注意

    我们强烈建议您在使用高可用性集群进行部署之前验证环境的设置。在启动向导设置的 SAP HANA 实例上部署应用程序之前,请先运行测试。测试可以确保故障转移和故障恢复操作正常运行。

下表总结了 SAP 支持Amazon Launch Wizard的部署模式。

部署模式 支持
单个亚马逊 EC2 实例上的 SAP HANA 数据库
SAP NetWeaver 在单个亚马逊 EC2 实例上运行 SAP HANA 系统
多个亚马逊 EC2 实例上的 SAP HANA 数据库
多个亚马逊 EC2 实例上的 SAP NetWeaver 系统
跨可用区 SAP HANA 数据库高可用性设置
跨可用区 SAP NetWeaver 系统设置
SUSE/RHEL 集群设置

有关更多信息,请参阅支持的部署和功能Amazon Launch Wizard

Amazon Application Migration Service 和 Amazon Elastic Disaster Recovery

我们建议使用Amazon Application Migration Service将您的 SAP HANA 数据库迁移到Amazon。有关更多信息,请参阅什么是 Amazon Application Migration Service

对于灾难恢复,我们建议使用Amazon Elastic Disaster Recovery。它使用块级复制将数据从源持续复制到目标。它有助于降低基础设施成本和总拥有成本。它提供了亚秒级的恢复点目标和分钟的恢复时间目标。有关更多信息,请参阅什么是 Amazon Elastic Disaster Recovery

Cloud Endure 是一家Amazon公司,还提供迁移和灾难恢复服务。Cloud Endure 灾难恢复服务是一种业务连续性产品,可用于 SAP 和非 SAP 工作负载。