云计算灾备:灾备通识

时间:2024-11-10 07:39:09



目录

  • 一、灾备的定义

    • 1.2.1 备份

    • 1.2.2 容灾

    • 1.2.3 两者区别

    • 1.2.4 两者关系

    • 1.1 什么是灾备?

    • 1.2 备份和容灾的概念

    • 1.3 灾备提供的保护

  • 二、灾备的作用

    • 2.3.1 容灾的应用场景

    • 2.3.2 容灾解决方案全景图

    • 2.3.3 本地高可用方案

    • 2.3.4 主备容灾方案

    • 2.3.5 双活数据中心容灾方案

    • 2.3.6 两地三中心方案(级联/并行)

    • 2.2.1 存储层面

    • 2.2.2 云计算层面

    • 2.2.3 复制类型

    • 2.1.1 数据中心存在的问题

    • 2.1.2 没有灾备会怎么样?

    • 2.1 存在的问题

    • 2.2 备份的作用

    • 2.3 容灾的作用

  • 三、灾备的衡量

    • 3.2.1 恢复点目标(RPO)

    • 3.2.2 恢复时间目标(RTO)

    • 3.2.3 综合标准

    • 3.1.1 完全备份

    • 3.1.2 累计增量式备份

    • 3.1.3 差异增量式备份

    • 3.1.4 备份策略原则

    • 3.1 备份类型

    • 3.2 灾备的指标

  • 四、灾备的实现

    • 4.5.1 主机层数据复制

    • 4.5.2 网络层数据复制

    • 4.5.3 存储层数据复制

    • 4.1.1 LAN-Base

    • 4.1.2 LAN-Free

    • 4.1.3 Server-Free

    • 4.1 备份的方式

    • 4.2 备份介质

    • 4.3 备份设计原则

    • 4.4 容灾的方式

    • 4.5 容灾技术

一、灾备的定义

1.1 什么是灾备?

灾备指的是用现有的科学技术手段和方法,提前建立起可靠的应急方式,来应对突发事件的发生。

灾备包括容灾系统和备份系统。

1.2 备份和容灾的概念

1.2.1 备份

备份:保障数据的安全性,备份指的是将全部或部分数据集合从生产主机硬盘或阵列中保存到其他的存储介质的过程。

1.2.2 容灾

容灾:保障业务的连续性,容灾指的是在较远的异地建立两套或者多套相同的、包含完整基础设施(计算、网络、存储、电力制冷等)的IT系统,通过网络的方式实现数据的传输,当主数据中心发生故障,可以利用备数据中心快速恢复业务。

1.2.3 两者区别

保护对象:备份保护的是数据,容灾保护的是业务连续性。

实现方式:备份采用备份软件技术实现,而容灾通过复制或者镜像软件实现。

时间周期:数据保护的周期不一致,复制或者镜像的时间周期更短。

补充:归档使用的是备份。

1.2.4 两者关系

只有备份:

如果只有备份,业务无法快速恢复,数据恢复需要时间,这段时间对某些行业带来的损失是无法估量的。另外,备份一般是周期性执行的,一旦发生数据丢失,从恢复复时间到上次备份时间之间的数据就会丢失。

只有容灾:

如果只有容灾,业务可以快速恢复,数据也可以被保护,但是生产段有错误的操作,或者系统升级失败之类的,也会被同步到容灾端,从而造成业务的中断。

1.3 灾备提供的保护

二、灾备的作用

2.1 存在的问题

2.1.1 数据中心存在的问题
  • 病毒、操作系统漏洞

  • 人为的误操作

  • 恐怖袭击

  • 电力故障

  • 硬件故障

  • 自然灾害(地震、洪水、台风)

2.1.2 没有灾备会怎么样?
  • 业务中断

  • 数据丢失

  • 客户投诉

  • 业务下滑

  • 经济赔偿

  • 公司倒闭

(数据是无价的,丢了的话问题很大哇!)

2.2 备份的作用

2.2.1 存储层面,配置备份的五大部分:
  1. 备份子客户端

  • 备份任务执行载体

存储策略

  • 备份介质

  • 重删策略

  • 保留策略

  • 写IO数

备份内容

  • 所需备份的内容

  • 过滤不需备份的内容

备份策略

  • 重删策略

  • 备份类型

  • 备份计划

性能优化

  • 客户端对数据的读流数

2.2.2 云计算层面

云服务器备份服务(CSBS):Cloud Server Backup Service,为云服务器提供整机备份功能,支持基于多云硬盘一致性快照技术的本地备份,以及对备份数据的远程复制,并支持利用备份数据恢复云服务器数据,最大限度保障用户数据的安全性和正确性,确保业务安全。

云硬盘备份服务(VBS):Volume Backup Service,基于云硬盘的备份服务。用户可为云硬盘创建备份,利用备份数据回滚云硬盘,以最大限度保证用户数据正确性和安全性。

2.2.3 复制类型

同步复制:实时同步进行复制。

异步复制:异步复制数据,数据一致性有待商榷。

2.3 容灾的作用

2.3.1 容灾的应用场景
  • 本地高可用容灾(HA)

  • 主备容灾(AS)

  • 双活数据中心(AA)

  • 两地三中心(3DC)

2.3.2 容灾解决方案全景图

本地生产中心:

  • 本地高可用解决方案

同城容灾方案(<100km):

  • 双活数据中心解决方案

  • 主备容灾解决方案

异地容灾方案(>100km):

  • 两地三中心容灾解决方案

  • 主备容灾解决方案

2.3.3 本地高可用方案

优点:

  • 业务0中断

  • 数据0丢失

  • 业务级高可靠。

本地高可用:本地高可用通常为近距离的同一个机房内,使用实时镜像和同步复制的方案,由于带宽和距离很近,通常要求RPO=0。

2.3.4 主备容灾方案

优点:

  • RPO≈0

  • TCO低,存储高中低端互通,异构、利旧。

  • 全局拓扑、集中告警

  • 自动化,一键式容灾演练、恢复

关键技术:HyperReplication

2.3.5 双活数据中心容灾方案

优点:

  • 6层双活架构。

  • 业务0中断,数据0丢失。

关键技术:HyperMetro

2.3.6 两地三中心方案(级联/并行)

组网类型 优势 不足
级联组网

对生产中心性能影响小。

当发生区域性灾难时,如果同城灾备中心完全受损,系统RPO将较大(因为异步复制)。

并联组网

当发生区域性灾难时,能有效避免级联组网的不足。

对生产中心的性能要求较高。

三、灾备的衡量

3.1 备份类型

补充:

备份窗口:它指用户正常使用业务系统不受影响的情况下,能够对业务系统中的业务数据进行数据备份的时间间隔,或者说是用于备份的时间段。

3.1.1 完全备份

完全备份:又叫全量备份,对某一时间点上的所有数据的一个完全拷贝。备份发起后变更的数据将在下一次进行备份,又称为全量备份。

  • 优点:能够基于上一次的完全备份恢复数据,恢复窗口小。

  • 缺点:占用空间大,备份时间长,备份窗口大。

3.1.2 累计增量式备份

累积增量式备份:以上一次完全备份为基准进行备份,若之前从未进行过备份,则备份所有数据。

  • 优点:相对完全备份来说,可以节约一个完全备份的存储空间,备份窗口较小,恢复窗口较小。

  • 缺点:恢复时必须依赖上一次完全备份和本次的累计增量式备份才能完全恢复数据,回复时间较差异增量式备份较短。

3.1.3 差异增量式备份

差异增量式备份:以上一次备份为基准进行备份,若之前从未进行过备份,则备份所有文件。

  • 优点:能够最大限度地节省存储空间,备份窗口小。

  • 缺点:数据恢复时必须以来上一次完全备份和每一次的差异增量式备份才能对数据进行完整恢复,恢复时数据重构较慢,恢复时间较长。

3.1.4 备份策略原则
  • 结合完全备份使用,但不要在同一个策略中结合使用累计增量式备份和差异增量式备份。

  • 通常应用环境对备份空间和备份窗口的要求较高,因此更多的结合使用完全备份和差异增量式备份。

3.2 灾备的指标

3.2.1 恢复点目标(RPO)

恢复点目标(RPO):当业务发生故障时,可以容忍数据丢失的数量,单位为时间。

举例:8点进行备份,9点丢数据,RPO=1小时,丢了一个小时的数据。

3.2.2 恢复时间目标(RTO)

恢复时间目标(RTO):当业务发生故障时,可以容忍业务中断的时间,单位为时间。

举例:比如灾难发生后半天内需要恢复数据,那么RTO就是12小时。

3.2.3 综合标准
灾难恢复能力等级 RTO(恢复时间目标) RPO(恢复点目标)

1

2天以上

1天至7天

2

24小时以内

1天至7天

3

12小时以上

数小时至1天

4

数小时至2天

数小时至1天

5

数分钟至两天

0至30分钟

6

数分钟

0


RTO/RPO 与灾难恢复能力等级关系(GB/T 20988-2007)

四、灾备的实现

4.1 备份的方式

这个在备份组网那一块再详细补充...

这里参考:图解三种备份方式(LAN,LAN free,Server free)_star&storage的技术博客_51CTO博客

4.1.1 LAN-Base

LAN-Base,这种方式很简单,直接在生产服务器上安装备份代理,部署一台备份服务器,这样即可完成备份,不过这种方式不适合数据量非常大的环境。因为如果备份数据量非常大,会占用以太网的带宽,虽然说备份操作一般在晚上进行。但是这种方式还是不适合大数据量的情况。因此有了LAN-Free备份。

4.1.2 LAN-Free

LAN-Free,顾名思义,即释放了LAN的压力。如上图所示,数据流直接从File server经过FC switch备份到Tape,而不经过Lan,这样就不会占用主网络的带宽。但是数据仍然会通过文件服务器的本地磁盘--内存—FC switch这步,因此仍然会消耗File server的资源。因此有了下面的Server Free备份来尽可能的减少生产服务器的压力。

4.1.3 Server-Free

Server-Free,即备份时数据不流经服务器的总线和内存,如上图,文件服务器使用SAN的File Server Storage空间,现在需要备份文件服务器,则只需将File Server Storage的数据直接备份到Tape。此时文件服务器只需要发出SCSI扩展复制命令,剩下的事情就是File Server Storage和Tape之间的事情了,这样就减轻了文件服务器的很多压力,使它可以专注于对外提供文件服务,而不需要再消耗大量CPU、内存、IO在备份的事情上了。

或者还有一种方式即NDMP,Network Data Management Protocol,网络数据管理协议。它是一种支持智能数据存储设备、磁带库设备及备份应用程序之间互相通信以完成备份过程的通信协议。服务器只要向支持NDMP协议的存储设备发送NDMP指令,即可让存储设备将其自己的数据直接发送到其他设备上,而不需要流经服务器主机。

4.2 备份介质

  • 磁盘阵列

  • 磁带库

  • 虚拟带库

  • 光盘塔、光盘库

  • 云存储

  • 一体机(将主服务器、介质服务器、备份介质集成到一个物理设备上。例如华为的HDP3500E)

4.3 备份设计原则

  1. 客户需求(需要备份的数据类型、数据量、备份的对象)

  2. 备份策略(数据备份的周期、数据备份的时间点)

  3. 网络规划(带宽的大小、网络的规划、组网类型)

  4. 存储规划(备份数据量、未来数据增长量)

4.4 容灾的方式

4.5 容灾技术

4.5.1 主机层数据复制

主机层数据复制:在生产中心和灾备中心的服务器上安装专用的数据复制软件,如卷复制软件,以实现远程复制功能。两中心间必须有网络连接作为数据通道。可以在服务器层增加应用远程切换功能软件,从而构成完整的应用级容灾方案。这种数据复制方式相对投入较少,主要是软件的采购成本;兼容性较好,可以兼容不同品牌的服务器和存储设备,较适合硬件组成复杂的用户。但这种方式要在服务器上通过软件来实现同步操作,占用主机资源和网络资源非常大。

4.5.2 网络层数据复制

网络层数据复制:在生产中心和灾备中心的服务器上安装专用的数据复制软件,如卷复制软件,以实现远程复制功能。两中心间必须有网络连接作为数据通道。可以在服务器层增加应用远程切换功能软件,从而构成完整的应用级容灾方案。这种数据复制方式相对投入较少,主要是软件的采购成本;兼容性较好,可以兼容不同品牌的服务器和存储设备,较适合硬件组成复杂的用户。但这种方式要在服务器上通过软件来实现同步操作,占用主机资源和网络资源非常大。

4.5.3 存储层数据复制

存储层数据复制:要实现数据的复制需要在生产中心和灾备中心都部署一套这样的存储系统,数据复制功能由存储系统实现。如果距离比较近(几十公里之内),之间的链路可由两中心的存储交换机通过光纤直接连接;如果距离在200公里内,可通过增加DWDM等设备直接进行光纤连接;超过200公里,则可增加存储路由器进行协议转换途径WAN或Internet实现连接。因此,从理论上可实现无限制连接。在存储层实现数据复制功能是很成熟的技术,而且对应用服务器的性能基本没有影响。目前,这种容灾方案稳定性高、对服务器性能基本无影响,是容灾方案的主流选择。

本文作者:SkyBiuBiu

本文链接:/Skybiubiu/p/

资料免费送(点击链接下载)

史上最全,数据中心机房标准及规范汇总(下载)

数据中心运维管理 | 资料汇总(2017.7.2版本)                                                    

加入运维管理VIP群(点击链接查看)

《数据中心运维管理》VIP技术交流群会员招募说明

扫描以下二维码加入学习群