为什么灾难恢复很重要?灾难恢复的工作原理

完善的灾难恢复 (DR) 策略可帮助公司从自然、意外或恶意来源的紧急情况中恢复。通过确保公司能够在危机时期快速恢复 IT 运营,灾难恢复有助于防止收入损失、客户不满意和品牌受损。本文介绍了灾难恢复以及具有安全意识的公司为紧急情况做准备的方式。我们解释了所有主要的灾难恢复概念,研究了不同的恢复策略,并概述了创建有效灾难恢复计划所需的所有内容。

为什么灾难恢复很重要?灾难恢复的工作原理-南华中天

什么是灾难恢复?

灾难恢复 (DR) 是一组程序、策略和流程,用于规定公司如何应对破坏性事件和事件。公司通常将其 DR 战略构建成一份正式文件,为团队提供应对灾难的详细说明。

灾难恢复的目标是确保在发生自然或人为事件时,企业可以继续运营或快速恢复 IT 运营。常见的灾难场景有:

  • 自然灾害,如海啸、地震、洪水或飓风。
  • 设备故障(断电、硬盘故障、物理损坏等)。
  • 意外的人为错误,例如意外删除数据或丢失BYOD 设备。
  • 火灾爆发。
  • 工业事故。
  • 恶意内部人员 破坏系统。
  • 炸弹威胁。
  • 来自组织外部的网络攻击(DDoS、  SQL 注入、勒索软件攻击等)。
  • 数据泄露。

公司通常将灾难恢复和业务连续性 计划结合到一个计划 ( BCDR ) 中。然而,尽管有一些重叠,但 BC 和 DR 之间有明显的区别:

  • 业务连续性是一组积极主动的做法,可最大限度地降低风险并确保业务能够继续提供服务而不会中断。
  • 灾难恢复计划是一个反应过程,它概述了公司在发生灾难时必须采取的恢复 IT 运营的具体步骤。

为什么灾难恢复很重要?

灾难恢复至关重要,因为它使公司能够:

  • 预测和预防可避免的事件。
  • 应对不可避免的事件并从中恢复。

当灾难发生时,恢复计划可以减少损失并帮助团队正确应对问题。因此,灾难恢复在紧急情况期间和之后可以带来以下好处:

  • 节省成本:为破坏性事件做准备可以节省数十万美元的损失(更安全的设备、更好的数据保护、更少的法律后果等)。
  • 快速恢复:与没有反应计划相比,企业可以通过 DR 更快地重新启动任务关键型服务。
  • 无服务中断:灾难恢复计划可确保服务继续运行,就好像灾难没有发生一样。
  • 降低团队压力:灾难准备通过在紧急情况下为团队提供明确的行动计划来降低员工的压力。

一些企业需要灾难恢复计划来满足合规性规定。在金融、 医疗保健和政府部门运营的公司通常在法律上有义务为某种形式的 DR 做好准备。

为什么灾难恢复很重要?灾难恢复的工作原理-南华中天

灾难恢复类型

公司可以从多种灾难恢复类型和方法中进行选择,以形成有效的恢复策略。您设置的灾难恢复类型取决于您的:

  • IT 环境及其独特的需求。
  • 哪些资产需要保护(数字和物理)。
  • 行业风险等级。
  • 备份和恢复的首选方法。
  • 总预算。

以下是最常见的灾难恢复类型:

  • 数据中心灾难恢复:这种灾难恢复类型可确保公司在辅助数据中心或托管 设施 中拥有故障转移站点 。该计划还应包括恢复主数据中心的措施 (例如,灭火工具或备用电源)。
  • 云灾难恢复:您可以使用云灾难恢复 来设置在发生中断时自动将工作负载故障转移到云, 而不是设置辅助设施 。这种类型的 DR 可以包括从保留云计算资源到备用 虚拟数据中心 (VDC)的任何内容。
  • 网络灾难恢复:此灾难恢复策略是在灾难期间恢复网络功能的计划。该计划通常涉及访问备份站点和数据。
  • 虚拟化灾难恢复:虚拟化 允许您在备用位置或云中复制占用空间小的工作负载。
  • 灾难恢复即服务 (DRaaS ):  DRaaS 是基于服务的云灾难恢复版本。如果出现紧急情况,DRaaS 提供商会将所有计算机处理转移到其云基础架构中,让您能够继续运营。

根据您的 IT 设置的范围和复杂性,您可能需要上面列出的多种(甚至全部)恢复类型。

灾难恢复的工作原理

灾难恢复依赖于在不受当前事件影响的外部位置复制数据和计算过程。这些位置可以是物理的或虚拟的,并且属于以下三个类别之一:

  • 冷站点:冷站点是具有电源和网络功能的辅助设施。这些站点不包括数据存储,因此在发生灾难时进行设置非常耗时且容易出错。
  • 温站点:除了 数据存储 硬件之外,温站点还包含冷站点的所有元素。如果发生灾难,这些站点已准备就绪,但团队仍需要传输当前数据。
  • 热站点: 热站点是一个完全可操作的备份站点,具有所有关键数据的最新镜像。这些位置的设置和维护非常耗时,但可以确保在紧急情况下几乎没有停机时间。

公司建立的站点类型取决于 IT 环境的复杂性和分配的预算。由于冷站点的设置成本低廉,而热站点非常复杂且成本高昂,因此大多数公司都选择了热备份。

为什么灾难恢复很重要?灾难恢复的工作原理-南华中天

灾难恢复示例

恢复策略的复杂性因事件类型和您要保护的资产价值而异。以下是一些灾难恢复的示例:

  • 员工应如何应对数据中心内或附近发生的火灾的计划。
  • 有关从数据备份中恢复内容 并在Web 或应用服务器 出现故障时 维持正常操作的 说明。
  • 如果公司的云 ERP 系统出现故障,如何恢复运营的指导 。
  • 在网络攻击后使网站重新上线的策略 。
  • 有关如何在飓风多发地区保护设备并使用故障转移备份保持服务在线的说明。
  • 如果其中一名员工意外打开网络钓鱼电子邮件中的文件,团队应如何缓解这种情况的说明 。
  • 勒索软件预防DR 计划,提供  有关团队应如何隔离受感染系统并使用不可变备份来恢复数据的步骤。

什么是灾难恢复计划?

灾难恢复计划是一份公司范围内的文件,它指定团队应如何应对特定的中断或灾难。本文档提供了员工所需的所有信息,以最大限度地减少灾难的影响并保护企业。

虽然每个 DR 计划都是独一无二的,但每个文档都应包括:

  • 灾难计划的主要目标和恢复时间。
  • 首选人员及其联系信息。
  • 潜在威胁和风险的概述。
  • 关键 IT 资产的细分。
  • 响应行动和程序的详细描述。

灾难恢复计划应该不断发展。每当您添加新设备或扩展工具堆栈时,通过更新文档来确保响应策略保持有效和准确。

灾难恢复计划的要素

完善的灾难恢复计划应包括以下要素:

  • 风险分析: 对企业可能面临的所有潜在风险的评估。
  • 业务影响分析:  BIA 评估风险分析概述的危险的影响。该评估可预测对公司安全、财务、声誉和合规性的潜在影响。
  • 灾难恢复目标: 明确定义组织旨在通过灾难恢复计划实现的目标。
  • 恢复时间对象 (RTO):  RTO 是 IT 基础架构在事件发生后重新上线所需的时间。该指标定义了关键系统在发生灾难时可以经历的最大停机时间。
  • 恢复点对象 (RPO):  RPO 是在事件开始到完全 IT 恢复之间可能丢失的可接受的数据量(按时间衡量)。
  • 首选人员: 负责执行 DR 计划的工作人员的姓名和联系方式的清晰列表。
  • IT 清单: 硬件和软件资产、IT 重要性和依赖关系的详细列表。
  • 恢复站点: 团队在紧急情况下可以依赖的所有冷、热和热站点的概述。
  • 备份程序: 有关备份资源的方式、时间和地点以及如何恢复内容的说明。
  • 灾难恢复程序: 针对不同事件场景的分步应急响应。
  • 恢复指南: 恢复 IT 运营的详细计划。

为什么灾难恢复很重要?灾难恢复的工作原理-南华中天

如何制定灾难恢复计划?

以下是有关如何创建基本灾难恢复计划的分步指南:

  • 执行风险分析: 找出您最有可能面临的威胁,包括自然灾害、设备故障和网络威胁。
  • 定义 DR 目标: 概述灾难恢复计划的主要目标并定义预期恢复时间(RTO 和 RPO)。
  • 规划资产: 确定您要保护的内容,包括网络设备、服务器、工作站、软件、云资源和关键数据。列出每个资产的位置(无论是物理的还是数字的)、配置、型号、序列号、版本和依赖关系。
  • 资产优先级: 根据损失对业务的影响程度来定义每项资产的优先级(高、中和低)。
  • 提供设施概要: 深入了解您的设施(平面图、电力需求、安全要求、防火机制等)。
  • 定义首选人员: 提供负责执行 DR 措施的员工和团队的姓名和联系方式。
  • 解释备份程序: 详细说明公司备份数据的方式、时间和地点。
  • 概述灾难恢复程序: 为每个潜在事件提供应急响应程序。
  • 解释恢复程序: 解释团队应如何在灾难后恢复 IT 操作和数据。该计划应涵盖对风险分析中列出的所有威胁的响应。
  • 为备份站点编写说明: 如果团队在灾难后无法继续使用主数据中心,员工必须知道如何到达备用站点(无论是冷的、温暖的还是热的)。
  • 提供恢复说明: 编写详细计划,将整个 IT 设置恢复到灾前状态。

在正式制定计划之前,您应该针对每种灾难类型进行实际演练。您可以为所有基于软件的灾难组织一次 渗透测试 ,以查看该过程在现实生活中是否有效。

组建强大的灾难恢复团队

无论是从头开始制定 DR 计划还是改进现有战略,组建合适的专家团队都是成功的关键。将您的 DR 团队分成四个关键组,负责:

  • 行政决策: 这些工作人员批准与 DR 相关的战略、政策和预算。
  • 危机管理: 该团队启动恢复计划、协调恢复工作并处理不可预见的问题。这些员工是所有 DR 相关问题的首选联系人。
  • 运营连续性: 这些专家负责 业务连续性最佳实践 并确保服务在灾难期间保持可用。
  • 影响评估和恢复: 该团队评估损害并领导 DR 计划的恢复阶段。

培训是创建有能力的 DR 团队的关键。定期进行演练和测试,让员工保持良好状态,并确保 DR 团队及时了解 IT 环境的变化。

抱最好的希望,做最坏的打算

您从事件中恢复的时间越长,对您的运营和财务的影响就越大。完善的灾难恢复计划可确保从中断中快速恢复,因此必须成为您的 IT 和业务战略不可或缺的一部分。