重复数据删除市场上最初出现的产品都是基于特定系统的,关注的焦点在于提高磁盘到磁盘备份解决方案的价值,同时使组织对磁带的依赖性降到最低。
>随着重复数据删除技术的不断普及,少量的主存储器供应商已经开始尝试将这项技术作为一种附加功能添加到其产品中,尤其是在虚拟磁带库(VTL)中。备份软件厂商也正往其解决方案中添加这一功能。如今,可用的重复数据删除技术很多,IT经理们可以有很多选择,然而,新的问题在于:在哪里部署重复数据删除过程最合适呢?
>当你在阅读这篇文章时,要记住,重复数据删除技术的核心焦点是辅助存储器而不是主存储器,包括归档和备份。还要注意,重复数据的构造可能并不是非常明显。例如,Oracle数据库可以有多种备份方法:使用内置RMAN实用工具;使用企业备份软件应用程序;或者是使用Oracle专用的备份实用工具。这几种方法中,每种方法都要创建自己的数据集。由于这些数据集都是同一个Oracle数据库的备份,每一个数据集中的数据从本质上来说是一样的。
>通用重复数据删除系统
>包括Data Domain和Quantum在内的几家厂商都提供了不与特定的虚拟磁带库或备份设备相关联的重复数据删除产品。这些设备可以称为通用重复数据删除系统。
>使用通用重复数据删除存储系统得好处在于,它的设计就是为了删除重复数据的。这种设计带来的好处是,这些系统具有数据源中立的特点,也就是意味着,源备份数据可以来自多个不同的应用程序,包括备份软件、应用程序工具、归档应用程序、或者是直接来自用户。
>通用型系统提供了多种数据访问协议(NFS、CIFS或是磁带仿真),而且还提供了多种不同类型的物理连接(以太网或光纤通道)。在真实的数据中心中,存在很多不同的备份数据源,数据源中立能够带来显而易见的好处。
>尽管在通用系统中,数据输入可以来自多个不同的源,但是,重复数据删除过程却是对所有源都起作用的。例如,管理员可以通过备份应用程序将微软的SQL环境备份到一个通用型重复数据删除系统上。然后,同样的数据可以被放入SQL DBA的重复数据删除系统。之后,通过使用VMware备份工具,该数据还可能作为VMware镜像的一部分被获取,并转移到重复数据删除系统上。
>在以上讲述的例子中,所有的数据都是相似的,而且在存储数据之前,来自每一个源的冗余的部分都会被删除。注意,这个例子是针对每天都有微小变化的文件。这种多保护模式在当今的数据中心中并不少见,因此,在一周或一个月内节省的空间是让人震惊的。
>通常,通用型重复数据删除系统具有在线重复数据删除的能力,因为一般来说,这是最有效率的处理方式。理想情况下,重复数据删除系统还应该具备辨别长度可变的数据部分的能力,从而提供最有效的重复数据删除效果。例如,它应该能够只鉴别和存储数据库中那些发生改变的数据部分,而不是在每个备份上重新存储整个文件。
>最后,包含复制功能的通用重复数据删除系统为用户提供了将备份数据复制到远程站点的最佳方法。利用重复数据删除技术,重复数据删除系统只需要通过网络复制新的数据片段就可以了。
>最有效率的系统将是那种能够在多个站点之间通过在线处理重复数据删除进行复制的系统。到目前为止,Data Domain是最符合这个要求的。此外,在线重复数据删除系统能够在系统刚开始接收数据的时候就启动复制过程。这与虚拟磁带库系统不同,后者通常是使用后处理方式的重复数据删除,因此复制过程开始之前会存在一定时间的延迟,从而使得灾难恢复数据存在一定的风险。
>虚拟磁带库解决方案
>虚拟磁带库解决方案的提供商,如FalconStor(也是EMC和Sun的供应商)、NetApp和Sepaton通常会认证一系列的备份应用程序,但是对数据源或数据目标系统来说,它们并不是中立的。
>特别需要指出的是,虚拟磁带库解决方案是仿真磁带库。因此,只有那些对磁带库具有特定支持的应用程序才能使用虚拟磁带库,这使得应用程序本身受到限制,难以取得更大的发展。
>在数据中心中流行使用的很多工具通常是将数据装入磁盘,而并不支持磁带协议。很多数据保护工具并不支持将数据复制到虚拟磁带库中。
>带重复数据删除功能的虚拟磁带库解决方案的局限大部分来自系统管理复杂性的增加以及在线处理与后处理的优劣之争上。通常来说,新增的虚拟磁带管理需要在磁盘上仿真磁带,因此对已经很复杂的环境来说不异于又增加了更多的复杂性。
>对持续的日常管理来说,后处理方式进一步增加了其复杂性,而且这种方式对重复数据删除和复制(或是创建灾难恢复副本)的时间会有负面影响。后处理方式同时还需要增加额外的磁盘容量来充当重复数据删除的“着陆区”。
>最终,更多的容量意味着需要管理更多的磁盘,消耗更多的电源和制冷成本,占据更多的空间,当然,还需要购买更多的设备。如果使用低效率的后处理重复数据删除方式,在现有的虚拟磁带库产品中还不如不增加重复数据删除功能。
>基于软件的重复数据删除和单实例存储
>正如人们所期望的,备份软件厂商目前正在其功能集中增加重复数据删除功能。此外,备份软件厂商,如CommVault正在使用一种数据缩减技术,也即众所周知的单实例技术,在备份主机接收数据并开始文件层次的比较时发挥作用。
>尽管这种方法很明显会降低备份过程引发的某些存储要求,但是它不能解决网络带宽的需求问题,也不能解决类似数据的多个副本的问题(只有那些通过特定应用程序运行的数据才需要检验是否存在冗余)。
>单实例存储并不能解决备份存储中存在的另一个大问题:那些定期发生轻微变动的文件。
>在单实例存储中,那些不需要每天变化的离散文件通常被排除在备份的实例之外。然而,在所有的备份传送策略中,那些无变化的文件并不是问题所在,那些每天变化一点的大型文件才是真正的问题所在。
>数据库,VMware镜像和Exchange存储通常每天都会发生轻微变化。一个文件层次的单实例对照能