尽管在这次莫拉克的肆虐中,通信业少量基站和海底光纤受到影响,未对大部分人的通信生活造成困扰,但是在自然灾害频发的。这种情况并不是个案,尽管汶川地震后,运营商采取了一系列提升电信容灾系统能力的措施,但是运营商仍面临很多灾备软肋。
>数据备份仅是第一道防线
>“现在中国电信某些省份直接将磁盘存进柜子,作为电信容灾系统的唯一一道保障,这显然不能够满足现在数据业务发展的需要。”某IT咨询公司的咨询师对记者表示。数据备份、存档,这并不是真正的灾备方案。专家指出,真正的数据容灾就是要避免传统冷备份的先天不足,它能在灾难发生时,全面、及时地恢复整个系统。但就现在运营商灾难恢复方案来看,还远不能满足发展所需。
>电信容灾系统按其能力的高低可分为多个层次,例如国际标准SHARE78定义的电信容灾系统有七个层次:从最简单的仅在本地进行磁带备份,到将备份的磁带存储在异地,再到建立应用系统实时切换的异地备份系统,恢复时间也可以从几天到小时级到分钟级、秒级或0数据丢失等。
>当然无论是采用哪种电信容灾系统方案,数据备份还是最基础的,没有备份的数据,任何容灾方案都没有现实意义。“容灾不等于备份,但光有备份是不够的,容灾也必不可少。电信容灾系统对于IT而言,就是提供一个能防止各种灾难的计算机信息系统。”EMC公司电信行业技术经理薛雁冰表示。
>一个完整的灾难备份系统主要由数据备份系统、备份数据处理系统、备份通信网络系统和完善的灾难恢复计划组成。在灾难备份系统建设中,数据备份是关键,如何将数据(包括系统、应用和业务等数据)完整、实时地复制到灾难备份中心,是灾难备份系统建设中首先要考虑的重点。
>H3C存储产品部部长龚军生表示,可以将电信容灾系统归纳为3个步骤:基础设施建设、两个数据中心的同步、日常的技术支持和运维管理,这三个步骤之中,基础设施建设、日常的运维管理属于灾备的基础支撑系统,从技术的角度来说,最复杂的内容就是两个数据中心的同步。
>两个数据中心的同步分为同步灾备数据复制和异步灾备复制。据福建移动信息系统部经理林志云介绍,同步复制多半采用同城灾备模式,因为这种数据同步方式,是需要先将数据写入灾备中心的I/O,后写入数据中心,两者基本上能达到同步形式。而异步多半采用甲骨文等数据库软件,在一段时间内周期性进行数据同步工作,基本采用异地同步的形式。
>目前运营商以省级为单位建设灾备中心,“灾备数据中心的建设多半选择同城建设。”林志云表示,“同城建设可以选择同步数据备份形式,能够快速备份数据,有效保护数据。”
>而灾备数据中心的远程部署,是灾备的最大特点,龚军生提出“IP存储先天具备广域特性,基于IP的远程复制技术可以大大简化灾备的远程部署。”
>做好基础演练
>对于大多数运营商而言,目前已经做到了在同城建立数据备份中心,但是这显然对地震等区域性灾害的电信容灾系统能力很低。为此,有些业务发展优秀的运营商也正尝试着进行异地灾备中心建立的工作。但似乎并没取得很好的效果。
>建立灾备中心的目的是希望当灾难发生时,能够通过灾备中心实现业务和数据的恢复,这就要求灾备中心的数据100%的可用,“如果灾备中心的数据不能够保证可以恢复,那么灾备就没有太大的价值和意义了。”龚军生表示
>万国数据公司(简称GDS)副总裁张权表示:“业内有句经典的话,灾备不是一项技术,而是一项工程。对于运营商而言,灾备中心并不是建立完成,并做好运维工作就可以在灾难到来时安枕无忧了。灾备是项系统且繁杂的项目,包括前期容灾评估,电信容灾系统规划,后期演练等多项工作。”
>林志云也指出:“现在很多运营商都不太重视灾备的演练,很多运营商一年也没有做到一次,不能完全发现灾备中心的缺陷。可以说只有少数省份能够做到半年进行一次演练。”
>四川安县桑枣中学的中学校长因经常带领全校师生进行安全演练,最终逃过汶川地震,全校师生无一人伤亡。安全事故的防范和演练对IT系统同样适用。
>专家指出,定期的电信容灾系统演练才能验证容灾架构、灾难恢复预案的有效性以及实际执行能力。针对演练过程,发现各方面存在的问题并加以改进,可以使容灾体系更加完善,同时也能使各部门相关人员都熟悉、了解相关的策略、流程和方法,提高电信运营商应急响应和灾难恢复的综合执行能力。
>但林志云表示,对于运营商来讲,做一次灾备演练,是十分耗时耗力的事情,需要将现有系统运行的业务全部转载到灾备系统上。由于现在运营商数据中心与灾备中心的配备多是1∶0.75到1∶1之间,灾备中心并不能支撑所有客户,对客户服务感知度略有影响,所以这种演练通常在业务量低的夜间进行。而且由于演练需要各个部门的相互协作,光靠IT系统部门去组织也是不现实的,更需要运营商高层的从上而下的重视。
>薛雁冰认为,目前电信容灾系统管理制度和管理手段的重要性日益突出;容灾环境健康检查、容灾监控软件成为必须;对于电信容灾系统的量化评估体系成为必须。
>据了解,目前国内部分运营商已经着手这些问题,在同EMC合作开发客户化的容灾管理软件,对大型容灾环境进行监控和管理。
>但是这种监控和管理能否真正落实到位仍是问题。张权认为,灾备外包可以有效解决这个问题。灾备外包不但可以从组织结构上帮助运营商建立有效的灾备管理体系,并可以帮助运营商进行科学的整体灾备规划。“最为重要的是,灾备外包可以降低运营商运维成本,对运营商的整体财政有着重要意义。”张权表示。
>技术创新提高灾备能力
>从技术上看,衡量电信容灾系统有两个主要指标:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了当灾难发生时允许丢失的数据量;而RTO则代表了系统恢复的时间。最好的情况是RPO=0,RTO=0,但显然这种情况是个理想状态。
>龚军生指出,现在灾备做得最好的银行系统是将指标设在RPO=0,RTO&