在Clipper Group2006年8月发布的”备份技术的发展(The Evolution of Backups)”分析白皮书中,分析师针对提升容量效益部分做出了这样的报告:”重复数据删除技术是备份技术的下一个发展步骤。”在二级存储归档时删除重复数据可以大幅削减存储介质的成本、进一步流畅管理任务,同时最小化复制数据时的带宽需求。
>尽管重复数据删除的概念非常先进,但由于识别重复数据、索引唯一数据、将被紧凑的数据恢复到初始状态所需要的处理能力要求的成本太高,致使这项技术的推广非常缓慢。但是,随着技术的发展,处理能力越来越经济高效,重复数据删除技术在近期再次成为市场的焦点。
>许多厂商都声称自家提供的是‘最佳’的重复数据删除产品,而将辨别真伪和判断哪些因素对企业的业务更为重要的难题留给了迷茫的用户。甚至有些厂商不切实际的大肆渲染自家产品可以巨量删除重复数据,致使很多早期的重复数据删除用户对他们之前选择的解决方案感到非常失望。
>企业想要找到可以真正提供经济效益、高性能且无限扩展的长期数据储存的重复数据删除技术,就必须充分考虑到一些关键性因素。本文将有助于那些想要使用重复数据删除技术的用户了解更多背景资料,从而做出明智的购买选择。
>重复数据删除成为一项操作需求
>由于二级存储卷的不断增加,企业需要一种方法可以极大的减少数据卷。而很多法律法规的变化,也使得企业面临更大的挑战,被迫不得不改变他们原有的数据保护方式。通过消除重复数据,使数据归档时尽可能的紧凑、简洁,不仅极大的削减了企业成本,同时企业还可以将更多的数据在线保留更长时间。很多企业都希望将数据存储环境的成本效益和性能发挥到最优,而重复数据删除正是这样一种技术,因此很快吸引了企业IT主管的眼球。
>虽然压缩技术也可以提供平均值为2:1的数据压缩,但这对于企业需要处理的海量数据只不过是很小的部分,实在是杯水车薪。只有重复数据删除技术才能满足企业大量削减数据量的需求。
>由于人们对物理搬运磁带的方式所面临的风险(损坏、被窃、丢失等)早已非常明了,而企业在进行远程存储时又特别重视关键信息的保护和风险最小化的问题,电子化传输无疑成为远程传送的最佳选择。在将备份数据以电子传输方式传送到远程站点进行归档时,重复数据删除能够使所需的带宽需求最小化。
>优秀的重复数据删除解决方案应该具备的关键性标准
>当用户在评估重复数据删除解决方案时,可以将下面的八条标准作为主要评估标准:
>1 能够解决关键性问题:有效删除重复数据
>2 能够与当前环境相整合
>3 VTL容量
>4 重复数据删除对备份性能的影响
>5 具备可扩展能力
>6 支持分布式应用
>7 能够对存储库提供实时保护
>8 效率及有效性
>1. 能够解决关键性问题:有效删除重复数据
>重复数据删除解决方案是否能够真正解决关键问题所在:有效的删除二级存储上的重复数据,是我们首先要考虑的问题。重复的备份数据会造成多次储存需求,只要重复数据不被删除,储存需求就会继续。
>ESG集团2007年发布的报告用图表方式说明了备份向新技术发展的必要性。相对于一次全备份来说,增量和差异数据备份也可以减少备份的数据量。
>然而,即使是增量备份,在保护基于文件级变化的数据时,还是会备份很多重复的数据。当需要跨越多个站点的多台服务器进行备份时,通过部署重复数据删除解决方案减少存储才是更好的选择。
>2. 能够与当前环境相整合
>一个高效的重复数据删除解决方案应该对当前IT环境的影响/中断越小越好。许多企业都选择利用VTL备份来避免影响/中断,以在不改变企业当前备份策略、处理或软件的情况下提升备份质量。因此,基于VTL的重复数据删除技术在部署时对环境影响也应该是最小的。它将更多的注意力集中在了备份这个巨大的重复数据存储池上。
>基于VTL的t重复数据删除解决方案通常要求使用专用设备,但这并不影响部署的灵活性。一个充分灵活的重复数据删除解决方案应该即可以以软件包形式提供给用户,也可以提供给用户整体的解决方案(Turnkey Appliance),从而最大限度的使用户的现有资源得以利用。
>3. VTL容量
>如果重复数据删除技术的部署是围绕着VTL进行的,那么VTL自身的容量就必须作为评估的一部分来考虑。重复数据删除节省下的容量是不能解决由于使用不够规格的VTL所引发的问题的。因此,既要全面考虑VTL的功能性、性能、稳定性以及支持能力也要充分考虑重复数据删除的扩展能力。
>4. 重复数据删除对备份性能的影响
>在哪里、什么时候进行重复数据删除是关系到备份处理性能的非常重要的问题。有些解决方案试图在数据进行备份时删除重复数据,这会使VTL的性能降低多达60%以上,直接造成备份过程太慢和备份窗口太大的严重性能影响。
>相比之下,在备份任务完成之后进行重复数据删除的解决方案则不会出现这些问题,而且不会对备份性能带来任何影响。另外,为了最大限度的发挥易管理性,解决方案允许用户依照多种不同的因素,如资源利用、生产进度、创建时间等进行精细(磁带级或磁带组级)的基于策略的重复数据删除。这使得存储经济性轻松实现,同时,也将系统资源的利用发挥到最大。
>5. 具备可扩展能力
>由于重复数据删除解决方案是用于长期的数据储存的,在容量和性能方面的可扩展能力也是非常重要的考虑因素,而且至少要考虑未来五年甚至更长时间的增长计划。那么,在保证快速访问的前提下,你希望有多少数据保存在磁带上?你需要怎样的数据索引系统呢?
>优秀的重复数据删除解决方案提供的架构,无论是在初始部署时,还是面对未来系统的长期增长,都应该能保证最优化(Right-sizing)、最经济的架构规模。集群可以帮助用户满足不断增长的容量需求—即使是N多Petabyte数据增长的环境—而且不会降低重复