数据精简(Data reduction)或容量优化(capacity optimization)技术、类似重复数据删除和数据压缩等技术都已经成为二级存储软件(例如虚拟磁带库、备份和归档软件)的成熟技术并已被广泛采用。对于主存储设备(特别是对于NAS服务器),采用上述技术也可获得同样的益处——成本减少(或至少推迟采购),能源节约。
>主存储压缩率比二级存储的低
>但是在开始考虑这一选择前,关键是要到注意到主存储设备和二级存储设备在数据精简过程中的要求不同。主要的差别是对性能的要求有差异。
>Taneja集团调查和咨询公司的前高级分析师和咨询师Eric Burgener说,“PSO(主存储优化)和SSO(二级存储优化)的关键区别是对存取延时的要求。主存储器对存取延时的要求更严格。”(这一话题的深层讨论,详见Burgener的文章:”Primary storage optimization moves forward”)
>尽管采取了各种方式使存取延时对性能的影响最小(最好是完全消除),但存储优化流程中还是存在存取延迟。
>Burgener说,“同样需要重点关注的是:主存储器中的冗余数据量远远低于二级存储器。因此你可以发现,相比而言,主存储器的压缩率低得多。”
>然而,他说一部分供应商正在解决主存储器上伴随数据压缩和重复数据删除技术而产生的性能问题,而用户应该了解,8:1的数据精简量和20:1的精简量差别其实并不大。
>在线处理和后处理
>二级存储器进行数据精简的结果是容量优化比率为20:1或更大;而主存储器进行数据精简的结果是容量优化比率为个位数(尽管在供应商采取的方式不同,或者针对的数据类型不同的情况下,这一比率差别很大)。然而,因为减少的是成本较高的主存储设备的容量,即使数据精简比率是3:1,成本节约也是可观的。比如,比率仅为2:1或3:1即可将容量分别减少50% 或66%。
>如果你将供应商用于进行主存储设备数据精简的建构方式与进行二级存储器数据精简的建构方式相比较,你会发现很接近。比如,一些供应商采用在线数据精简技术(在数据被写入磁盘之前或者同步进行容量优化);有些供应商采用后处理技术(例如,在数据被存入磁盘之后)。
>Burgener说,通常,在线的数据精简方式对原始存储容量的需求较小,但是处理速度却是一个问题,因为有可能对应用软件性能造成负面影响。后处理方式不会导致存取延迟,但所需的存储容量却相对较大,具体取决于数据进入容量优化模式的速度。
>IDC公司存储软件产品的调研经理Noemi Greyzdorf说,容量优化在线处理和后处理两种方式的益处和弊端,取决于你当前所用技术对读取或写入性能影响,及对附加容量需求。
>其次,一些供应商采用“通用”算法(对各类数据都适用的相同算法),而供应商Ocarina Networks则采用了专为特定文件类型(例如,jpeg, tiff等等)设计的“内容识别(content-aware)”算法。
>限制因素
>数据精简技术最初登场时,由于担心会对性能造成负面影响(处理能力降级或存取延迟);以及可能存在的数据可用性及可靠性问题,终端用户都不想配置这一技术。而这些问题在主存储设备(性能、可用性和可靠性更为关键)中被放大。
>然而,供应商已在很大程度上减轻了这些负面影响。尽管数据精简技术会导致存取延迟,但这一延迟已被最小化(读取过程中延迟量小于一毫秒),对于很多应用软件,这一影响已经消除。并且所有的供应商都加快了处理速度。
>大部分供应商通过先进的数据指纹辨识技术和散列算法(hashing algorithm)、字节级确认(byte-level validation)、checksumming,及其他技术来确保数据可靠性(进行了容量优化之后的数据形式和之前的相同)。同时数据可用性问题也已解决,某些供应商是通过在镜像中配置数据精简软件这一方式。
>IDC的Greyzdorf说,很多用户仍在试图了解主存储设备数据精简的不同方式,并且,他们必须确保数据的完整性。
>对于计划进行主存储设备数据精简的终端用户,一个好消息是这一领域的供应商数量相对较少,并且大多数提供软件,这样你可以了解到,基于当前的数据集合,你的存储系统可达到什么水平的容量优化比率。
>尽管可将主存储设备不同的数据精简方式一一对比,但实际上,不同的方式大相径庭,根本不具可比性。 然而,目标都是一样的:缩减容量,实现容量优化,以节约成本、减少占地面积、能源和冷却需求及成本。