一直以来,人们普遍采用以磁带备份为主的第一代备份技术来保护数据;随着磁盘价格的下降,以及经济的基于SATA的磁盘阵列的出现,逐渐有更多的人在成本上能够接受采用磁盘存储和网络复制的数据保护方案。我们这里称之为第二代备份技术。
>但磁带与磁盘备份系统均有这样那样的问题,现代的IT管理者需要第三代备份技术,既要求真正的、基于磁盘的解决方案,能够保存许多版本的备份拷贝,让数据恢复操作能够利用到磁盘随机读写的能力,同时还能够实现自动化的远程异地数据传输(即所谓的网络仓库)。在实现上述所有功能的同时,还要确保其费用不能高于基于磁带的方案。最为重要的是,该解决方案能够实现的数据的可靠性和完整性更高。
>第一代备份技术:磁带备份
>磁带一直以来就是存储备份数据的事实上的标准介质,并用于灾难恢复、异地复制数据的传输。随着容量和性能的提高,磁带能够以很低的成本保存数据的多个拷贝或版本。
>可惜磁带也有一些缺点——磁带是为备份,而不是为恢复定制优化的。
>随着磁带驱动器速度的增加,需要在备份时增加分级(或中转)设备以维持持续磁带驱动器中的数据流,因为这样可以防止由于磁带反复开始、停止和重定位而导致的“shoe shine”问题。由于增量备份不能够产生维持数据流所需的足够量数据,所以增量备份往往让问题更加复杂。所以为了维持磁带驱动器的数据流,一般需要采用多路复用(multiplexing)技术,就是将来自多个客户端的并发备份数据流合在一起。
>通过增加磁带驱动器的利用率,复用技术提高了备份性能,但反过来会降低恢复的性能。因为要从备份的镜像中一边查找恢复的数据,一边跳过那些其他客户端产生的数据,需要更多的时间。
>不过,磁带技术最大的问题不在这里,而在于数据完整性的不确知性。因为备份可能成功完成了,但除非真正恢复数据,要检验所有磁带上的数据几乎是不可能的。一盘出现问题的磁带可能会导致恢复操作的失败,甚至会影响整个一套磁带介质的可用性,而这在没有做真的恢复操作前往往是发现不到的。
>第二代备份技术:磁盘备份
>磁盘存储在很多地方优于磁带存储。第一,与磁带驱动器不同,磁盘阵列不需要维持一个稳定的数据流。即使像增量备份这种小数据量操作也不会产生“shoe shine”效应。
>第二,磁盘阵列可简化和加速整个备份过程,因为磁盘阵列技术可以让管理员减少单位时间内全备份的次数。当使用磁带技术时,为了简化恢复,不管备份窗口日渐缩小,依然需要做经常性的全备份以最小化恢复所需的磁带数。增量备份会增加恢复时所必需的磁带数,这就会延长恢复的时间,同时增加由于某盘磁带不可恢复所带来的风险。使用磁盘,管理员就可以缩小备份窗口。
>使用磁盘既简化了异地拷贝的恢复,又提高了它的效益。磁盘到磁带的数据仓库技术直接将每个客户端的所有恢复拷贝组织在一起,可以加快恢复速度。另外,磁盘到磁带的拷贝比磁带到磁带的拷贝更为灵活。在做磁带到磁带的拷贝时,其他备份或恢复操作无法使用正在拷贝的主和克隆磁带驱动器;磁盘到磁带则相反,可以同时接受并发的访问,在把数据拷贝到磁带上的同时可继续做备份和恢复。
>最重要的是,在恢复的可靠性和性能上磁盘的优越性很强。磁盘特有的技术(比如RAID)使得磁盘的可靠性更加优于磁带。如前所述,恢复时所需的一系列磁带中的一盘磁带出现问题,会导致整个恢复操作的失败。而使用RAID技术,即使一块硬盘出现故障,恢复操作依然可以顺利完成。(尽管RAID技术在可靠性上明显优于磁带,但依然不能解决所有问题,这个我们会在后面讨论。)
>作为随机访问设备,使用磁盘可以提高单个文件的恢复速度。硬盘的平均访问时间是按毫秒单位计量;而磁带这种顺序访问设备的平均访问时间一般在27秒~73秒的范围内。如果恢复时需要从磁带上读取数据,加载和卸载操作会延长访问数据的时间。
>尽管优势多多,但采用标准磁盘作为备份设备的最大的局限依然是成本问题。尽管磁盘的价格大幅下降,磁带依然是最经济的选择。假设要保存四个星期的每星期一次全备份、每天一次增量备份的数据,如果增量备份的数据量是原有数据量的5%,那么就需要5倍于原有数据量的备份数据容量。每GB数据10~20美元的SATA RAID阵列的成本,依然高于每GB数据1到5美元的磁带成本。
>第三代备份技术:具备五大特性
>第三代备份技术应当既具备磁带的经济性,也应当具备磁盘的可用性和速度,同时能够克服磁带和传统磁盘存储阵列固有的缺陷。第三代备份技术应当具备如下特性:
>经济性。该解决方案的成本应不高于磁带自动化的方案。用户不希望花更多的钱,而需要让已经购买的方案更货真价实。同时,该方案还必须能够保存数星期、数月的数据,这样才可以从磁盘完成所有的恢复。
>高性能。日渐缩减的备份窗口和不断增长的数据量,要求高性能的备份。同时,日常运维数据不断增长的重要性又需要高性能的恢复。备份存储解决方案必须满足这两方面对性能的要求。磁带技术能够满足备份性能的要求,但付出的代价是恢复的性能很低。
>数据完整性。数据备份的目的是数据恢复。用户如何知道刚做的备份是可用的呢?尽管备份成功完成,关键是需要能够验证备份的结果是可恢复的。由于大量恢复操作都有失败的教训,显然,将备份成功视作数据就一定可恢复是完全不正确的。而且要保证恢复的成功,备份存储解决方案要比传统RAID和文件系统具有更高级别的硬件和软件保护能力。最后,备份是数据保存的最终方式。理想的备份存储解决方案必须提供可验证的可恢复性和高弹性的存储。
>低影响力。很少有人能够负担得起抛弃现有系统、重建新系统的成本。所以备份方案必须具备的特性是,易于使用和易于集成到现有标准备份/恢复环境。Gartner报告显示,备份和恢复系统占整个存储系统的总体拥有成本的30%左右。现在与以前不同,要求IT部门能够做到花费少、事要做得多。优化的备份存储解决方案必须简化备份和恢复的